标签:BurstAttention
AI
9个月前 (03-15)AI
这篇论文介绍了一个名为BurstAttention的新型分布式注意力框架,它专门设计来处理极长序列的数据。在大语言模型(LLMs)中,注意力模块是理解复杂文本和生成响应的关键部分,但是随着序列长度的增加,这些模块在计算时间和内存消耗上的复杂度也会呈二次方增长,这就成了一个挑战。BurstAttention通过在多个设备... 阅读全文