MIT的研究人员发布论文,主题是关于如何减少Transformer模型中关键值(Key-Value,KV)缓存的大小。Transformer模型是当前自然语言处理(NLP)领域非常流行的一种模型,它在处理大语言模型(LLMs)时,解码速度很快,但需要大量的内存来存储KV缓存,这在处理长序列和大批量数据时尤其成问题。
主要功能:
这项研究的主要功能是提出一种新的方法,称为跨层注意力(Cross-Layer Attention,CLA),它能够在保持准确性的同时显著减少KV缓存的内存需求。
主要特点:
- 跨层共享:CLA的核心思想是在相邻的变换器层之间共享KV激活,这样就能减少需要单独存储的KV对的数量。
- 内存效率:通过CLA,可以在保持几乎相同的准确性的情况下,将KV缓存的大小减少2倍。
- 兼容性:CLA可以与现有的多种注意力机制(如Multi-Query Attention,MQA和Grouped-Query Attention,GQA)结合使用。
工作原理:
CLA的工作方式是修改变换器架构,使得一些层计算自己的KV投影,而其他层则重用前面层的KV激活。这样,只有计算KV投影的层会为KV缓存做出贡献,从而减少了与传统架构相比的内存占用。
具体应用场景:
- 大型语言模型:在需要处理大量数据和长序列的场合,如机器翻译、文本摘要、问题回答等,CLA可以帮助减少内存占用,提高模型的运行效率。
- 资源受限的环境:在内存资源受限的设备上,CLA可以使得变换器模型更加高效,例如在移动设备或嵌入式系统上运行语言模型。
- 模型微调:在对预训练模型进行微调时,CLA可以帮助减少内存消耗,使得在有限的硬件资源上也能处理大型模型。
通过这些改进,论文展示了CLA在1亿和30亿参数规模的模型上进行训练时,相比传统MQA,可以提供更好的内存/准确性权衡,使得在更长序列长度和更大批量大小下的推理成为可能。
0条评论