当前位置：首页 > 优惠 >大语言模型>文章详情

OneBit：保持模型性能的同时，大幅减少模型的存储和计算开销

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-21)| 分类：大语言模型 | 热度：389 ℃

已关闭评论

来自清华大学和哈尔滨工业大学的研究人员推出一种名为“OneBit”的方法，它旨在将大语言模型（LLMs）的权重矩阵量化到极低比特宽度，即1比特，以实现模型的高效部署。这种方法特别关注于在保持模型性能的同时，大幅减少模型的存储和计算开销。

主要功能： OneBit的核心功能是将大型语言模型的权重矩阵从高比特精度（如32位或16位）量化到1比特精度，同时通过一种特殊的训练框架（Quantization-Aware Training, QAT）来保持模型的性能。这种方法允许模型在资源受限的设备上运行，如智能手机或个人电脑。

主要特点：

极低比特量化：OneBit大胆地将LLMs的权重矩阵量化到1比特，这在以往的研究中是不常见的，因为极低比特量化会导致性能显著下降。
Sign-Value-Independent Decomposition (SVID)：OneBit引入了一种新的权重矩阵分解方法，将权重矩阵分解为一个符号矩阵（±1）和两个值向量，以在量化过程中保持必要的浮点精度。
知识蒸馏：通过知识蒸馏（Knowledge Distillation）技术，OneBit能够将原始模型的知识转移到量化后的模型，从而在保持性能的同时实现模型压缩。

工作原理： OneBit的工作原理分为几个关键步骤：