深度求索推出DeepSeek-V3,总参数高达6710亿的开源大模型

| 分类: AI情报 | 热度: 1 ℃

国内最积极开源的 AI 公司 深度求索在开源AI社区引起了广泛关注。DeepSeek宣布推出 DeepSeek-V3,这是一款基于混合专家模型(Mixture-of-Experts, MoE)的大语言模型,总参数高达6710亿,每个token激活的参数为370亿。根据主流AI基准测试的结果,DeepSeek-V3是目前最强大的开源模型,其性能甚至超越了包括 OpenAI的GPT-4o  Anthropic的Claude 3.5 在内的热门闭源模型。

  • GitHub:https://github.com/deepseek-ai/DeepSeek-V3

性能表现

从上表可以看出,DeepSeek-V3在九项基准测试中均取得了顶尖成绩,这是同类规模模型中表现最为出色的。尽管在关键基准测试中表现优异,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时,训练成本约为560万美元。相比之下,同级别的开源模型 Llama 3 405B 需要3080万GPU小时的训练时间。DeepSeek-V3之所以具有成本效益,得益于其对FP8训练的支持和深度工程优化。

深度求索推出DeepSeek-V3,总参数高达6710亿的开源大模型

推理效率与成本

DeepSeek-V3在推理方面也表现出色。从2月8日起,DeepSeek-V3的输入成本为每百万token 0.27美元(使用缓存时为0.07美元),输出成本为每百万token 1.10美元。这一价格几乎是OpenAI和其他领先AI公司旗舰模型收费的十分之一。

DeepSeek团队的愿景

DeepSeek团队在X平台上发布了以下声明:
“DeepSeek的使命坚定不移。我们很高兴与社区分享我们的进展,并看到开源与闭源模型之间的差距正在缩小。这只是一个开始!期待在DeepSeek生态系统中看到多模态支持和其他前沿功能。”

获取方式

用户可以在 GitHub  HuggingFace 上下载DeepSeek-V3模型。凭借其卓越的性能和亲民的价格,DeepSeek-V3有望推动先进AI模型的普及。此次发布标志着开源与闭源AI模型之间差距缩小的重要一步。

DeepSeek-V3的推出不仅展示了中国AI研究的前沿实力,也为全球AI社区提供了更高效、更经济的解决方案,进一步推动了AI技术的民主化进程。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论