当前位置：首页 > 情报 >AI情报>文章详情

深度求索推出DeepSeek-V3，总参数高达6710亿的开源大模型

3个月前 (12-27) | 分类： AI情报 | 热度： 234 ℃

暂无评论

国内最积极开源的 AI 公司深度求索在开源AI社区引起了广泛关注。DeepSeek宣布推出 DeepSeek-V3，这是一款基于混合专家模型（Mixture-of-Experts, MoE）的大语言模型，总参数高达6710亿，每个token激活的参数为370亿。根据主流AI基准测试的结果，DeepSeek-V3是目前最强大的开源模型，其性能甚至超越了包括 OpenAI的GPT-4o 和 Anthropic的Claude 3.5 在内的热门闭源模型。

GitHub：https://github.com/deepseek-ai/DeepSeek-V3

性能表现

从上表可以看出，DeepSeek-V3在九项基准测试中均取得了顶尖成绩，这是同类规模模型中表现最为出色的。尽管在关键基准测试中表现优异，DeepSeek-V3的完整训练仅需278.8万H800 GPU小时，训练成本约为560万美元。相比之下，同级别的开源模型 Llama 3 405B 需要3080万GPU小时的训练时间。DeepSeek-V3之所以具有成本效益，得益于其对FP8训练的支持和深度工程优化。

深度求索推出DeepSeek-V3，总参数高达6710亿的开源大模型

推理效率与成本

DeepSeek-V3在推理方面也表现出色。从2月8日起，DeepSeek-V3的输入成本为每百万token 0.27美元（使用缓存时为0.07美元），输出成本为每百万token 1.10美元。这一价格几乎是OpenAI和其他领先AI公司旗舰模型收费的十分之一。

DeepSeek团队的愿景

DeepSeek团队在X平台上发布了以下声明：
“DeepSeek的使命坚定不移。我们很高兴与社区分享我们的进展，并看到开源与闭源模型之间的差距正在缩小。这只是一个开始！期待在DeepSeek生态系统中看到多模态支持和其他前沿功能。”

获取方式

用户可以在 GitHub 和 HuggingFace 上下载DeepSeek-V3模型。凭借其卓越的性能和亲民的价格，DeepSeek-V3有望推动先进AI模型的普及。此次发布标志着开源与闭源AI模型之间差距缩小的重要一步。

DeepSeek-V3的推出不仅展示了中国AI研究的前沿实力，也为全球AI社区提供了更高效、更经济的解决方案，进一步推动了AI技术的民主化进程。

DeepSeek-V3 深度求索

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！

上一篇： 2024年Steam游戏收入排行榜揭晓，PC游戏市场再创新高

下一篇： Valve 人均员工收入高于亚马逊、微软和 Netflix 的总和

猜你喜欢

查看更多商品

0条评论

暂时木有评论

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录