如何减少Transformer模型中关键值(Key-Value,KV)缓存的大小

分类:大语言模型 | 热度:129 ℃

MIT的研究人员发布论文,主题是关于如何减少Transformer模型中关键值(Key-Value,KV)缓存的大小。Transformer模型是当前自然语言处理(NLP)领域非常流行的一种模型,它在处理大语言模型(LLMs)时,解码速度很快,但需要大量的内存来存储KV缓存,这在处理长序列和大批量数据时尤其成问题。

主要功能:

这项研究的主要功能是提出一种新的方法,称为跨层注意力(Cross-Layer Attention,CLA),它能够在保持准确性的同时显著减少KV缓存的内存需求。

主要特点:

  • 跨层共享:CLA的核心思想是在相邻的变换器层之间共享KV激活,这样就能减少需要单独存储的KV对的数量。
  • 内存效率:通过CLA,可以在保持几乎相同的准确性的情况下,将KV缓存的大小减少2倍。
  • 兼容性:CLA可以与现有的多种注意力机制(如Multi-Query Attention,MQA和Grouped-Query Attention,GQA)结合使用。

工作原理:

CLA的工作方式是修改变换器架构,使得一些层计算自己的KV投影,而其他层则重用前面层的KV激活。这样,只有计算KV投影的层会为KV缓存做出贡献,从而减少了与传统架构相比的内存占用。

具体应用场景:

  • 大型语言模型:在需要处理大量数据和长序列的场合,如机器翻译、文本摘要、问题回答等,CLA可以帮助减少内存占用,提高模型的运行效率。
  • 资源受限的环境:在内存资源受限的设备上,CLA可以使得变换器模型更加高效,例如在移动设备或嵌入式系统上运行语言模型。
  • 模型微调:在对预训练模型进行微调时,CLA可以帮助减少内存消耗,使得在有限的硬件资源上也能处理大型模型。

通过这些改进,论文展示了CLA在1亿和30亿参数规模的模型上进行训练时,相比传统MQA,可以提供更好的内存/准确性权衡,使得在更长序列长度和更大批量大小下的推理成为可能。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论