上海交通大学并行与分布式系统研究所(IPADS)、清华大学计算机科学与技术系和上海人工智能实验室的研究人员推出新颖方法Turbo Sparse,能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量。提高大型语言模型(LLMs)在推理(inference)过程中的效率,特别是针对那些参数量巨大的模型。通过使用Turbo Sparse,他们成功地将Mixtral-47B模型的推理速度在移动电话上提高到了每秒11个token,这是一个非常显著的性能提升。
- 模型地址:https://huggingface.co/PowerInfer
例如,你正在开发一个智能助手应用,它需要对用户的查询做出快速响应。使用Turbo Sparse,你可以在不牺牲智能助手理解能力的前提下,显著减少处理时间,提供更迅速的反馈。这样,无论是在智能手机上还是其他资源受限的设备上,用户都能体验到快速且智能的服务。
主要功能:
- 提高推理速度:通过减少激活的参数数量,Turbo Sparse能够加快模型的推理速度,这对于需要快速响应的应用场景非常重要。
主要特点:
- 高效率:Turbo Sparse通过特定的激活函数和训练方法,实现了高达2-5倍的解码速度提升。
- 保持性能:即便在大量减少激活参数的情况下,模型的性能并未受到影响,甚至在某些情况下还能有所提升。
工作原理:
- dReLU激活函数:论文提出了一种新的激活函数dReLU,它在预训练过程中替换了原有的激活函数,帮助模型实现了更高的激活稀疏度。
- 高质量的训练数据混合比例:为了有效稀疏化,研究者们使用了多样化的开源数据集进行训练,这有助于模型在稀疏激活的情况下恢复其能力。
- 稀疏激活模式:在Mixture-of-Experts(MoE)模型的前馈网络(FFN)专家中利用稀疏激活模式,进一步提升了效率。
具体应用场景:
- 移动设备上的LLM推理:Turbo Sparse能够在如智能手机这样的移动设备上实现高速的LLM推理,使得移动应用能够利用强大的语言模型。
- 资源受限的环境:在计算资源受限或成本敏感的环境中,Turbo Sparse能够使这些环境也能够部署和运行大型语言模型。
- 环境友好:通过降低模型的计算需求,Turbo Sparse还有助于减少能源消耗和碳足迹,推动绿色计算。
0条评论