新型大语言模型BitNet b1.58

分类:大语言模型 | 热度:133 ℃

这篇论文介绍了一种新型的大语言模型(LLM),称为BitNet b1.58。这种模型的核心特点是使用了1.58位的参数(或权重),这意味着每个参数只有三种可能的值:-1、0和1。这种设计不仅在保持模型性能的同时显著降低了计算成本,还在内存、延迟、吞吐量和能源消耗方面带来了显著的效益。

论文地址:https://arxiv.org/abs/2402.17764

主要功能和特点:

  • 性能与成本的平衡: BitNet b1.58在保持与全精度(FP16或BF16)Transformer LLM相同的模型大小和训练数据的情况下,能够实现相同的困惑度(perplexity)和任务性能,同时在成本上实现了显著的降低。
  • 新计算范式: BitNet b1.58引入了一种新的计算范式,几乎不需要乘法操作来进行矩阵乘法,这使得模型可以高度优化。
  • 内存和延迟优化: 与FP16 LLM基线相比,BitNet b1.58在内存消耗、吞吐量和延迟方面更加高效。

工作原理:

  • 量化函数: 为了将权重限制在-1、0或+1,研究者采用了一种称为absmean的量化函数,它首先根据权重矩阵的平均绝对值进行缩放,然后将每个值四舍五入到最近的整数。
  • 激活量化: 激活的量化遵循与BitNet相同的实现,但在非线性函数之前不对激活进行缩放,而是将所有激活缩放到[-Qb, Qb]的范围,以消除零点量化,这在实验中对性能影响微乎其微。

具体应用场景:

  • 自然语言处理任务: BitNet b1.58可以在各种自然语言处理任务中实现零样本(zero-shot)性能,例如问答、文本理解等。
  • 边缘和移动设备: 由于其较低的内存和能源消耗,BitNet b1.58非常适合部署在边缘和移动设备上,这可以极大地提高这些设备的语言模型性能,并使之前不可能的应用成为可能。
  • 特定硬件优化: BitNet b1.58的设计为特定硬件(如LPUs)的优化提供了新的可能性,这些硬件可以专门为1位LLMs设计,以进一步提高性能和效率。

简而言之,BitNet b1.58是一种在保持高性能的同时,通过减少计算资源需求来降低成本的大型语言模型,它为自然语言处理领域带来了新的优化方向。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论