当前位置：首页 > 情报 >AI情报>文章详情

阿里巴巴推出 Qwen 大语言模型家族新成员Qwen2.5系列

6个月前 (09-18) | 分类： AI情报 | 热度： 182 ℃

暂无评论

继 Qwen2 发布三个月后，阿里巴巴旗下的通义千问团队带来了 Qwen 大语言模型家族的最新成员 —— Qwen2.5。

官方介绍：https://qwenlm.github.io/zh/blog/qwen2.5/
模型地址：https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
Demo：https://huggingface.co/spaces/Qwen/Qwen2.5

新成员概览

本次发布包括了：

Qwen2.5：通用语言模型，提供从 0.5B 到 72B 不同规模的版本。
Qwen2.5-Coder：专注于编程领域的模型，目前提供 1.5B 和 7B 版本，32B 版本即将推出。
Qwen2.5-Math：针对数学领域的模型，同样提供 1.5B 和 7B 版本，72B 版本也在计划中。

阿里巴巴推出 Qwen 大语言模型家族新成员Qwen2.5系列

开源与许可

除了 3B 和 72B 版本外，所有模型均采用 Apache 2.0 许可证开源。相关许可证文件可在 Hugging Face 仓库中查阅。

性能提升

与 Qwen2 相比，Qwen2.5 在最新大规模数据集上进行了预训练，包含高达 18T tokens。新模型在知识掌握（MMLU：85+）、编程能力（HumanEval 85+）和数学能力（MATH 80+）方面均有显著提升。此外，Qwen2.5 在执行指令、生成长文本、理解结构化数据和生成 JSON 格式输出方面也取得了重大进步。

语言支持

Qwen2.5 语言模型支持包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言，能够生成最多 8K tokens 的内容。

专业领域模型

Qwen2.5-Coder 和 Qwen2.5-Math 作为专业领域的专家语言模型，相比前身版本有了实质性的改进。Qwen2.5-Coder 在超过 5.5 T tokens 的编程数据上训练，展现出与大型语言模型相媲美的编程评估性能。Qwen2.5-Math 支持中文和英文，整合了 CoT、PoT 和 TIR 等多种推理方法。

顶 (0 )

踩 (0 )

Qwen2.5 阿里巴巴