当前位置：首页 > 优惠 >大语言模型>文章详情

昆仑万维开源2千亿稀疏大模型天工MoE

推荐人：暴走AI| 商城: AI | 11个月前 (06-03)| 分类：大语言模型 | 热度：95 ℃

已关闭评论

昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE，基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型，也是首个支持用单台 RTX 4090 服务器（8 张 RTX 4090 显卡）推理的开源千亿 MoE 大模型。

据介绍，本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列，是其中的中档大小模型（Skywork-MoE-Medium），模型的总参数量为 146B，激活参数量 22B，共有 16 个 Expert，每个 Expert 大小为 13B，每次激活其中的 2 个 Expert。

天工 3.0 还训练了 75B （Skywork-MoE-Small）和 400B （Skywork-MoE-Large）两档 MoE 模型，并不在此次开源之列。根据官方测试，在相同的激活参数量 20B（推理计算量）下，Skywork-MoE 能力接近 70B 的 Dense 模型，使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3，用更小的参数规模做到了相近的能力。

模型权重下载：

https://huggingface.co/Skywork/Skywork-MoE-base

https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

模型开源仓库：https://github.com/SkyworkAI/Skywork-MoE

主要功能和特点：

稀疏模型（MoE）：Skywork-MoE采用了Mixture-of-Experts（MoE）架构，这是一种稀疏模型，通过在多个专家（子模型）之间分配计算来提高经济性。
门控逻辑归一化（Gating Logit Normalization）：一种创新技术，通过改善专家的多样性来提高模型性能。
自适应辅助损失系数（Adaptive Auxiliary Loss Coefficients）：允许针对模型的不同层调整辅助损失系数，以实现更精细的训练控制。
大规模训练：Skywork-MoE在SkyPile语料库的一个精简子集上进行了训练，并在多种基准测试中展现出强大的性能。