阿里巴巴推出 Qwen 大语言模型家族新成员Qwen2.5系列

| 分类: AI情报 | 热度: 3 ℃

继 Qwen2 发布三个月后,阿里巴巴旗下的通义千问团队带来了 Qwen 大语言模型家族的最新成员 —— Qwen2.5。

  • 官方介绍:https://qwenlm.github.io/zh/blog/qwen2.5/
  • 模型地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
  • Demo:https://huggingface.co/spaces/Qwen/Qwen2.5

阿里巴巴推出 Qwen 大语言模型家族新成员Qwen2.5系列

新成员概览

本次发布包括了:

  • Qwen2.5:通用语言模型,提供从 0.5B 到 72B 不同规模的版本。
  • Qwen2.5-Coder:专注于编程领域的模型,目前提供 1.5B 和 7B 版本,32B 版本即将推出。
  • Qwen2.5-Math:针对数学领域的模型,同样提供 1.5B 和 7B 版本,72B 版本也在计划中。

阿里巴巴推出 Qwen 大语言模型家族新成员Qwen2.5系列

开源与许可

除了 3B 和 72B 版本外,所有模型均采用 Apache 2.0 许可证开源。相关许可证文件可在 Hugging Face 仓库中查阅。

性能提升

与 Qwen2 相比,Qwen2.5 在最新大规模数据集上进行了预训练,包含高达 18T tokens。新模型在知识掌握(MMLU:85+)、编程能力(HumanEval 85+)和数学能力(MATH 80+)方面均有显著提升。此外,Qwen2.5 在执行指令、生成长文本、理解结构化数据和生成 JSON 格式输出方面也取得了重大进步。

语言支持

Qwen2.5 语言模型支持包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言,能够生成最多 8K tokens 的内容。

专业领域模型

Qwen2.5-Coder 和 Qwen2.5-Math 作为专业领域的专家语言模型,相比前身版本有了实质性的改进。Qwen2.5-Coder 在超过 5.5 T tokens 的编程数据上训练,展现出与大型语言模型相媲美的编程评估性能。Qwen2.5-Math 支持中文和英文,整合了 CoT、PoT 和 TIR 等多种推理方法。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论