当前位置：首页 > 优惠 >大语言模型>文章详情

如何减少Transformer模型中关键值（Key-Value，KV）缓存的大小

推荐人：暴走AI| 商城: AI | 11个月前 (05-22)| 分类：大语言模型 | 热度：226 ℃

已关闭评论

如何减少Transformer模型中关键值（Key-Value，KV）缓存的大小

AI

MIT的研究人员发布论文，主题是关于如何减少Transformer模型中关键值（Key-Value，KV）缓存的大小。Transformer模型是当前自然语言处理（NLP）领域非常流行的一种模型，它在处理大语言模型（LLMs）时，解码速度很快，但需要大量的内存来存储KV缓存，这在处理长序列和大批量数据时尤其成问题。

主要功能：

这项研究的主要功能是提出一种新的方法，称为跨层注意力（Cross-Layer Attention，CLA），它能够在保持准确性的同时显著减少KV缓存的内存需求。

主要特点：

跨层共享：CLA的核心思想是在相邻的变换器层之间共享KV激活，这样就能减少需要单独存储的KV对的数量。
内存效率：通过CLA，可以在保持几乎相同的准确性的情况下，将KV缓存的大小减少2倍。
兼容性：CLA可以与现有的多种注意力机制（如Multi-Query Attention，MQA和Grouped-Query Attention，GQA）结合使用。

工作原理：

CLA的工作方式是修改变换器架构，使得一些层计算自己的KV投影，而其他层则重用前面层的KV激活。这样，只有计算KV投影的层会为KV缓存做出贡献，从而减少了与传统架构相比的内存占用。

具体应用场景：

大型语言模型：在需要处理大量数据和长序列的场合，如机器翻译、文本摘要、问题回答等，CLA可以帮助减少内存占用，提高模型的运行效率。
资源受限的环境：在内存资源受限的设备上，CLA可以使得变换器模型更加高效，例如在移动设备或嵌入式系统上运行语言模型。
模型微调：在对预训练模型进行微调时，CLA可以帮助减少内存消耗，使得在有限的硬件资源上也能处理大型模型。

通过这些改进，论文展示了CLA在1亿和30亿参数规模的模型上进行训练时，相比传统MQA，可以提供更好的内存/准确性权衡，使得在更长序列长度和更大批量大小下的推理成为可能。

Transformer模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：腾讯云 AI 代码助手免费限时公测：自动补全、根据注释生成内容、解释代码等

下一篇： LLM-Microscope：探索Transformer解码器中的线性特性，尤其是像GPT、LLaMA、OPT、BLOOM等模型

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录