当前位置：首页 > 优惠 >电脑游戏>文章详情

GPTVQ：压缩大语言模型（LLMs）的权重，以减少模型的大小并提高运行效率

推荐人：暴走AI| 商城: | 2年前 (2024-02-26)| 分类：电脑游戏 | 热度：901 ℃

已关闭评论

这篇论文介绍了一种名为GPTVQ的新方法，它用于压缩大语言模型（LLMs）的权重，以减少模型的大小并提高运行效率。GPTVQ是一种快速的后训练向量量化（VQ）方法，它通过增加量化的维度来改善神经网络量化的大小与准确性之间的权衡。这种方法特别适合于像GPT这样的大型语言模型，可以帮助它们在保持准确性的同时减少所需的存储空间和计算资源。

论文地址：https://arxiv.org/abs/2402.15319

主要功能：

使用向量量化技术来压缩大型语言模型的权重。
提供了一种快速且准确的方法来在不牺牲模型性能的情况下减小模型大小。

主要特点：

GPTVQ方法可以在单个GPU上高效处理大型模型，如70亿参数的Llama模型。
该方法通过使用Hessian矩阵的信息来更新未量化的权重，从而减少了量化引入的误差。
它还包括一种高效的数据感知版本的EM算法来初始化量化码本，以及使用整数量化和基于SVD的压缩来进一步减小模型大小。

工作原理： GPTVQ方法首先对模型的权重进行分组，然后对每组权重应用向量量化。在量化过程中，它会考虑每组权重的Hessian矩阵，这是一个描述权重变化对模型输出影响的二阶导数矩阵。通过这种方式，GPTVQ能够更准确地量化权重，从而减少量化噪声对模型性能的影响。此外，GPTVQ还通过更新码本来进一步优化量化模型，以及通过降低码本的秩来减少模型大小。

具体应用场景：