当前位置：首页 > 优惠 >大语言模型>文章详情

浪潮信息推出开源MoE模型Yuan 2.0-M32：基于Yuan 2.0-2B的一个变体，采用了一种特殊的架构，其中包含32个专家网络，但每次只有2个专家被激活

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-01)| 分类：大语言模型 | 热度：220 ℃

已关闭评论

浪潮信息推出开源MoE模型Yuan 2.0-M32：基于Yuan 2.0-2B的一个变体，采用了一种特殊的架构，其中包含32个专家网络，但每次只有2个专家被激活

浪潮信息推出新型混合专家（Mixture of Experts，简称MoE）语言模型Yuan 2.0-M32，这个模型是基于Yuan 2.0-2B的一个变体，采用了一种特殊的架构，其中包含32个专家网络，但每次只有2个专家被激活。这种设计旨在提高模型的计算效率和准确性。实验结果表明，Yuan 2.0-M32在上述应用场景中都取得了很好的性能，尤其是在数学和ARC-Challenge基准测试中超过了其他模型。此外，由于其高效的计算性能，Yuan 2.0-M32在实际应用中能够以较低的计算成本实现高性能，这使得它在资源受限的环境中尤其有价值。

GitHub：https://github.com/IEIT-Yuan/Yuan2.0-M32
模型地址：https://huggingface.co/IEITYuan
官网：https://airyuan.cn/home

主要功能和特点：

混合专家架构：Yuan 2.0-M32采用了MoE架构，这种架构通过增加专家的数量来扩大模型规模，从而提高准确性。
注意力路由器（Attention Router）：论文提出了一种新的路由器网络，称为注意力路由器，用于更高效地选择激活的专家，这比传统的路由器网络有更好的准确性。
高效的计算性能：Yuan 2.0-M32在训练时的计算消耗仅为同样参数规模的密集模型的9.25%，并且在推理时的计算效率也很高。
出色的准确性：尽管只有3.7亿个活跃参数，Yuan 2.0-M32在多个领域的基准测试中表现出色，包括编程、数学和各种专业知识。
开源：论文中提到，Yuan 2.0-M32的模型和源代码已在GitHub上发布，供公众访问和使用。