当前位置：首页 > 优惠 >大语言模型>文章详情

Skywork-MoE：具有1460亿参数和16个专家的高性能混合专家模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-17)| 分类：大语言模型 | 热度：306 ℃

已关闭评论

昆仑万维旗下天工AI发布大语言模型（LLM）训练技术Skywork-MoE，Skywork-MoE是一个具有1460亿参数和16个专家的高性能混合专家（Mixture-of-Experts，简称MoE）模型。这个模型是从Skywork-13B模型的密集型检查点初始化而来的。通过实验结果表明，Skywork-MoE在多个基准测试中表现出色，例如在CEVAL、CMMLU、MMLU、GSM8K、MATH和HumanEval等测试中都取得了很好的成绩。这证明了其在不同领域的有效性和实用性。

主要功能和特点：

大规模参数：Skywork-MoE拥有极其庞大的参数量，这使得它能够理解和生成复杂的语言结构。
混合专家结构：它采用了MoE架构，这意味着模型由多个小型的专家网络组成，每个专家都专注于处理某些类型的任务或数据。
创新训练技术：论文中提出了两种创新的训练技术——门控逻辑归一化（gating logit normalization）和自适应辅助损失系数（adaptive auxiliary loss coefficients），以提高模型性能。

工作原理：