昆仑万维开源2千亿稀疏大模型天工MoE

分类:大语言模型 | 热度:24 ℃

昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE,基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型,也是首个支持用单台 RTX 4090 服务器(8 张 RTX 4090 显卡)推理的开源千亿 MoE 大模型

据介绍,本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。

天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。根据官方测试,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力接近 70B 的 Dense 模型,使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。

  • 模型权重下载:

https://huggingface.co/Skywork/Skywork-MoE-base

https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

主要功能和特点:

  1. 稀疏模型(MoE):Skywork-MoE采用了Mixture-of-Experts(MoE)架构,这是一种稀疏模型,通过在多个专家(子模型)之间分配计算来提高经济性。
  2. 门控逻辑归一化(Gating Logit Normalization):一种创新技术,通过改善专家的多样性来提高模型性能。
  3. 自适应辅助损失系数(Adaptive Auxiliary Loss Coefficients):允许针对模型的不同层调整辅助损失系数,以实现更精细的训练控制。
  4. 大规模训练:Skywork-MoE在SkyPile语料库的一个精简子集上进行了训练,并在多种基准测试中展现出强大的性能。

工作原理:

  • MoE架构:MoE模型通过门控机制动态地将输入令牌路由到最相关的专家。每个专家是一个小的前馈神经网络(FFN),MoE层包含多个这样的专家。
  • 门控机制:通过Softmax层计算每个令牌在可用专家上的概率分布,选择概率最高的k个专家来处理令牌。
  • 辅助损失:为了确保专家之间负载均衡,引入辅助损失函数来鼓励令牌在专家之间均匀分布。

具体应用场景:

  • 自然语言处理(NLP):Skywork-MoE可以用于机器翻译、自动摘要等多种NLP任务。
  • 知识问答:能够理解和回答复杂问题,提供准确的信息。
  • 编程辅助:评估结果显示,Skywork-MoE在编程能力测试中也表现良好,可以辅助编程和代码生成。
  • 教育和研究:在教育领域,它可以帮助学生和研究人员获取信息和学习语言。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论