浪潮信息推出开源MoE模型Yuan 2.0-M32:基于Yuan 2.0-2B的一个变体,采用了一种特殊的架构,其中包含32个专家网络,但每次只有2个专家被激活

分类:大语言模型 | 热度:70 ℃

浪潮信息推出新型混合专家(Mixture of Experts,简称MoE)语言模型Yuan 2.0-M32,这个模型是基于Yuan 2.0-2B的一个变体,采用了一种特殊的架构,其中包含32个专家网络,但每次只有2个专家被激活。这种设计旨在提高模型的计算效率和准确性。实验结果表明,Yuan 2.0-M32在上述应用场景中都取得了很好的性能,尤其是在数学和ARC-Challenge基准测试中超过了其他模型。此外,由于其高效的计算性能,Yuan 2.0-M32在实际应用中能够以较低的计算成本实现高性能,这使得它在资源受限的环境中尤其有价值。

  • GitHub:https://github.com/IEIT-Yuan/Yuan2.0-M32
  • 模型地址:https://huggingface.co/IEITYuan
  • 官网:https://airyuan.cn/home

主要功能和特点:

  1. 混合专家架构:Yuan 2.0-M32采用了MoE架构,这种架构通过增加专家的数量来扩大模型规模,从而提高准确性。
  2. 注意力路由器(Attention Router):论文提出了一种新的路由器网络,称为注意力路由器,用于更高效地选择激活的专家,这比传统的路由器网络有更好的准确性。
  3. 高效的计算性能:Yuan 2.0-M32在训练时的计算消耗仅为同样参数规模的密集模型的9.25%,并且在推理时的计算效率也很高。
  4. 出色的准确性:尽管只有3.7亿个活跃参数,Yuan 2.0-M32在多个领域的基准测试中表现出色,包括编程、数学和各种专业知识。
  5. 开源:论文中提到,Yuan 2.0-M32的模型和源代码已在GitHub上发布,供公众访问和使用。

工作原理:

Yuan 2.0-M32的核心是MoE结构,它通过以下步骤工作:

  • 输入分发:输入数据被送到路由器网络,该网络负责将数据分配给不同的专家。
  • 专家选择:路由器网络使用注意力机制来考虑专家之间的相关性,并选择最合适的专家进行激活。
  • 计算执行:被选中的专家对输入数据执行计算任务,生成输出。
  • 输出合并:各个专家的输出被合并,形成最终的模型输出。

具体应用场景:

Yuan 2.0-M32可以应用于多种场景,包括但不限于:

  • 编程任务:模型能够生成代码,完成编程挑战,如HumanEval基准测试。
  • 数学问题解决:模型能够解决数学问题,如GSM8K和MATH基准测试。
  • 科学知识与推理:模型在ARC-Challenge基准测试中表现出色,能够处理复杂的科学问题。
  • 多语言理解:模型在MMLU基准测试中表现良好,能够理解和生成多种语言的内容。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论