DeepSeek-V2 是一个专家混合(Mixture-of-Experts,简称 MoE)语言模型,以其经济的训练成本和高效的推理能力而著称。DeepSeek-V2 在一个包含 8100 万亿个 token 的多样化和高质量语料库上进行了预训练。随后,通过监督式微调(Supervised Fine-Tuning,简称 SFT)和强化学习(Reinforcement Learning,简称 RL)进一步优化,以充分发挥模型的潜力。评估结果显示,DeepSeek-V2 在标准基准测试和开放式生成评估中都取得了显著的性能提升,证明了我们方法的有效性。
性能提升
与上一代 DeepSeek 相比,拥有 2360 亿参数的 DeepSeek-V2:
-
每个 token 激活了 210 亿参数 -
性能更强 -
节省了 42.5% 的训练成本 -
减少了 93.3% 的键值(KV)缓存 -
将最大生成吞吐量提高了 5.76 倍
0条评论