国内最积极开源的 AI 公司 深度求索在开源AI社区引起了广泛关注。DeepSeek宣布推出 DeepSeek-V3,这是一款基于混合专家模型(Mixture-of-Experts, MoE)的大语言模型,总参数高达6710亿,每个token激活的参数为370亿。根据主流AI基准测试的结果,DeepSeek-V3是目前最强大的开源模型,其性能甚至超越了包括 OpenAI的GPT-4o 和 Anthropic的Claude 3.5 在内的热门闭源模型。
- GitHub:https://github.com/deepseek-ai/DeepSeek-V3
性能表现
从上表可以看出,DeepSeek-V3在九项基准测试中均取得了顶尖成绩,这是同类规模模型中表现最为出色的。尽管在关键基准测试中表现优异,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时,训练成本约为560万美元。相比之下,同级别的开源模型 Llama 3 405B 需要3080万GPU小时的训练时间。DeepSeek-V3之所以具有成本效益,得益于其对FP8训练的支持和深度工程优化。
推理效率与成本
DeepSeek-V3在推理方面也表现出色。从2月8日起,DeepSeek-V3的输入成本为每百万token 0.27美元(使用缓存时为0.07美元),输出成本为每百万token 1.10美元。这一价格几乎是OpenAI和其他领先AI公司旗舰模型收费的十分之一。
DeepSeek团队的愿景
DeepSeek团队在X平台上发布了以下声明:
“DeepSeek的使命坚定不移。我们很高兴与社区分享我们的进展,并看到开源与闭源模型之间的差距正在缩小。这只是一个开始!期待在DeepSeek生态系统中看到多模态支持和其他前沿功能。”
获取方式
用户可以在 GitHub 和 HuggingFace 上下载DeepSeek-V3模型。凭借其卓越的性能和亲民的价格,DeepSeek-V3有望推动先进AI模型的普及。此次发布标志着开源与闭源AI模型之间差距缩小的重要一步。
DeepSeek-V3的推出不仅展示了中国AI研究的前沿实力,也为全球AI社区提供了更高效、更经济的解决方案,进一步推动了AI技术的民主化进程。
0条评论