当前位置：首页 > 优惠 >大语言模型>文章详情

新型大语言模型BitNet b1.58

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-28)| 分类：大语言模型 | 热度：241 ℃

已关闭评论

这篇论文介绍了一种新型的大语言模型（LLM），称为BitNet b1.58。这种模型的核心特点是使用了1.58位的参数（或权重），这意味着每个参数只有三种可能的值：-1、0和1。这种设计不仅在保持模型性能的同时显著降低了计算成本，还在内存、延迟、吞吐量和能源消耗方面带来了显著的效益。

主要功能和特点：

性能与成本的平衡： BitNet b1.58在保持与全精度（FP16或BF16）Transformer LLM相同的模型大小和训练数据的情况下，能够实现相同的困惑度（perplexity）和任务性能，同时在成本上实现了显著的降低。
新计算范式： BitNet b1.58引入了一种新的计算范式，几乎不需要乘法操作来进行矩阵乘法，这使得模型可以高度优化。
内存和延迟优化： 与FP16 LLM基线相比，BitNet b1.58在内存消耗、吞吐量和延迟方面更加高效。

工作原理：

量化函数： 为了将权重限制在-1、0或+1，研究者采用了一种称为absmean的量化函数，它首先根据权重矩阵的平均绝对值进行缩放，然后将每个值四舍五入到最近的整数。
激活量化： 激活的量化遵循与BitNet相同的实现，但在非线性函数之前不对激活进行缩放，而是将所有激活缩放到[-Qb, Qb]的范围，以消除零点量化，这在实验中对性能影响微乎其微。

具体应用场景：

自然语言处理任务： BitNet b1.58可以在各种自然语言处理任务中实现零样本（zero-shot）性能，例如问答、文本理解等。
边缘和移动设备： 由于其较低的内存和能源消耗，BitNet b1.58非常适合部署在边缘和移动设备上，这可以极大地提高这些设备的语言模型性能，并使之前不可能的应用成为可能。
特定硬件优化： BitNet b1.58的设计为特定硬件（如LPUs）的优化提供了新的可能性，这些硬件可以专门为1位LLMs设计，以进一步提高性能和效率。

简而言之，BitNet b1.58是一种在保持高性能的同时，通过减少计算资源需求来降低成本的大型语言模型，它为自然语言处理领域带来了新的优化方向。

BitNet b1.58