DeepSeek-V2:经济高效且性能强大的新型语言模型

分类:大语言模型 | 热度:101 ℃

DeepSeek-V2 是一个专家混合(Mixture-of-Experts,简称 MoE)语言模型,以其经济的训练成本和高效的推理能力而著称。DeepSeek-V2 在一个包含 8100 万亿个 token 的多样化和高质量语料库上进行了预训练。随后,通过监督式微调(Supervised Fine-Tuning,简称 SFT)和强化学习(Reinforcement Learning,简称 RL)进一步优化,以充分发挥模型的潜力。评估结果显示,DeepSeek-V2 在标准基准测试和开放式生成评估中都取得了显著的性能提升,证明了我们方法的有效性。

性能提升

与上一代 DeepSeek 相比,拥有 2360 亿参数的 DeepSeek-V2:

  • 每个 token 激活了 210 亿参数
  • 性能更强
  • 节省了 42.5% 的训练成本
  • 减少了 93.3% 的键值(KV)缓存
  • 将最大生成吞吐量提高了 5.76 倍

DeepSeek-V2:经济高效且性能强大的新型语言模型

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论