PowerInfer-2:在智能手机上实现大语言模型的高速推理,特别是对于那些模型大小超出设备内存容量的情况

分类:大语言模型 | 热度:112 ℃

上海交通大学推出PowerInfer-2,它的主要目标是在智能手机上实现大语言模型(LLMs)的高速推理,特别是对于那些模型大小超出设备内存容量的情况。PowerInfer-2是第一个能够在智能手机上以每秒11.68个token的速度运行TurboSparse-Mixtral-47B模型的系统,这是一个具有47亿参数的大型语言模型。此外,对于完全适合内存的模型,PowerInfer-2在保持与现有快速系统相当的推理速度的同时,能够实现大约40%的内存使用减少。

  • 项目主页:https://powerinfer.ai/v2

PowerInfer-2:在智能手机上实现大语言模型的高速推理,特别是对于那些模型大小超出设备内存容量的情况

主要功能:

  • 高速推理:PowerInfer-2能够在手机上快速运行大型语言模型,提供比现有技术快得多的推理速度。
  • 内存效率:即使模型大小超过了手机的内存限制,它也能够有效地进行推理。

主要特点:

  1. 异构计算资源利用:框架利用了智能手机上的异构计算、内存和I/O资源。
  2. 多态神经元引擎:根据不同的推理阶段,调整计算策略以适应不同的硬件。
  3. 分段神经元缓存和细粒度流水线:有效最小化和隐藏I/O操作的开销。

工作原理:

  • PowerInfer-2将传统的矩阵计算分解为细粒度的神经元簇计算,这些神经元簇根据特定硬件组件的特性动态组合。
  • 在预填充阶段,所有用户输入的令牌同时处理,利用NPU处理大型矩阵计算的优势。
  • 在解码阶段,使用CPU核心来处理显著稀疏的计算任务,利用其灵活性和对稀疏激活的适应性。
  • 引入了分段缓存和细粒度的神经元簇级流水线技术,以提高缓存命中率和减少I/O操作的延迟。

具体应用场景:

  1. 智能个人助理:将智能手机转变为能够理解和回应用户查询的智能助理。
  2. 隐私保护:在设备上直接处理数据,避免将私人数据传输到云端服务,保护用户隐私。
  3. 多语言翻译:利用大型语言模型进行实时语言翻译,支持跨语言交流。
  4. 内容创作:辅助用户在手机上创作文本内容,如撰写邮件、生成报告等。

简而言之,PowerInfer-2通过其创新的设计,让智能手机也能够高效地运行通常只能在强大服务器上运行的大型语言模型,极大地扩展了智能手机处理复杂任务的能力。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论