当前位置：首页 > 优惠 >大语言模型>文章详情

新型二值化技术“Mixture of Scales”：用于压缩大语言模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-19)| 分类：大语言模型 | 热度：217 ℃

已关闭评论

新型二值化技术“Mixture of Scales”：用于压缩大语言模型

AI

首尔国立大学、 SqueezeBits和成均馆大学的研究人员推出新型二值化技术“Mixture of Scales”（简称BinaryMoS），它主要用于压缩大语言模型（LLMs）。二值化是一种将模型中的权重参数转换为二进制值的方法，可以显著减少模型的大小，但传统的二值化技术会牺牲模型的语言能力。BinaryMoS通过一种新颖的方式解决了这个问题。这项技术的出现，为大型语言模型的压缩和部署提供了新的可能性，使得这些强大的模型能够更广泛地应用于各种场景。

例如，你有一本非常厚的百科全书，它包含了丰富的知识，但携带和使用起来非常不方便。为了简化，我们把它压缩成一本小册子，但在这个过程中可能会丢失一些信息。在大型语言模型中，我们也希望将它们变得“更瘦”，以便于在各种设备上使用，但同时我们不想失去它们的智能。BinaryMoS技术就像是一个智能压缩器，它能够在压缩模型的同时，尽可能保持模型的智能和功能。

主要功能：

高效压缩大型语言模型，减少模型大小，提高部署的便捷性。
保持或提高模型的语言处理能力，减少因压缩带来的性能损失。

主要特点：

记忆效率：BinaryMoS通过使用多个尺度专家（scaling experts）动态生成每个token的自适应尺度因子，而不是传统的静态二值化方法。
表示能力增强：通过上下文调整二值权重的值，增强了模型的表示能力。
压缩效率：与传统的静态二值化方法相比，BinaryMoS保持了类似的压缩效率。

工作原理：

BinaryMoS的工作原理可以分解为以下几个步骤：

多个尺度专家：与传统的单一尺度因子不同，BinaryMoS使用多个尺度专家来处理二值权重。
动态合并：在推理过程中，根据上下文动态合并这些尺度专家，生成自适应的尺度因子。
线性组合：通过线性组合这些尺度专家，可以创建几乎无限数量的自适应尺度因子，从而动态调整二值权重的表示值。

具体应用场景：

移动设备：在内存有限的移动设备上部署大型语言模型。
边缘计算：在边缘设备上进行本地化的自然语言处理任务，减少对云端计算的依赖。
资源受限环境：在计算资源受限的环境中，如某些嵌入式系统或物联网设备，高效运行语言模型。

BinaryMoS Mixture of Scales 大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： HumanSplat：通过单张图片来预测任何人的3D高斯Splatting属性

下一篇：分词的诅咒：在大语言模型中，文本分词（tokenization）这一预处理步骤存在的问题，以及这些问题对模型性能的影响

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录