当前位置：首页 > 优惠 >大语言模型>文章详情

DeepSeek-V2：经济高效且性能强大的新型语言模型

推荐人：暴走AI| 商城: AI | 11个月前 (05-18)| 分类：大语言模型 | 热度：197 ℃

已关闭评论

DeepSeek-V2：经济高效且性能强大的新型语言模型

AI

DeepSeek-V2 是一个专家混合（Mixture-of-Experts，简称 MoE）语言模型，以其经济的训练成本和高效的推理能力而著称。DeepSeek-V2 在一个包含 8100 万亿个 token 的多样化和高质量语料库上进行了预训练。随后，通过监督式微调（Supervised Fine-Tuning，简称 SFT）和强化学习（Reinforcement Learning，简称 RL）进一步优化，以充分发挥模型的潜力。评估结果显示，DeepSeek-V2 在标准基准测试和开放式生成评估中都取得了显著的性能提升，证明了我们方法的有效性。

性能提升

与上一代 DeepSeek 相比，拥有 2360 亿参数的 DeepSeek-V2：

每个 token 激活了 210 亿参数
性能更强
节省了 42.5% 的训练成本
减少了 93.3% 的键值（KV）缓存
将最大生成吞吐量提高了 5.76 倍

DeepSeek-V2：经济高效且性能强大的新型语言模型

DeepSeek-V2

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：一致性大型语言模型（CLLMs）：高效并行解码技术

下一篇： EasyFrontend：前端开发的得力助手，提供超过 600 个免费的 UI 组件

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录