继 Qwen2 发布三个月后,阿里巴巴旗下的通义千问团队带来了 Qwen 大语言模型家族的最新成员 —— Qwen2.5。
- 官方介绍:https://qwenlm.github.io/zh/blog/qwen2.5/
- 模型地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
- Demo:https://huggingface.co/spaces/Qwen/Qwen2.5
新成员概览
本次发布包括了:
- Qwen2.5:通用语言模型,提供从 0.5B 到 72B 不同规模的版本。
- Qwen2.5-Coder:专注于编程领域的模型,目前提供 1.5B 和 7B 版本,32B 版本即将推出。
- Qwen2.5-Math:针对数学领域的模型,同样提供 1.5B 和 7B 版本,72B 版本也在计划中。
开源与许可
除了 3B 和 72B 版本外,所有模型均采用 Apache 2.0 许可证开源。相关许可证文件可在 Hugging Face 仓库中查阅。
性能提升
与 Qwen2 相比,Qwen2.5 在最新大规模数据集上进行了预训练,包含高达 18T tokens。新模型在知识掌握(MMLU:85+)、编程能力(HumanEval 85+)和数学能力(MATH 80+)方面均有显著提升。此外,Qwen2.5 在执行指令、生成长文本、理解结构化数据和生成 JSON 格式输出方面也取得了重大进步。
语言支持
Qwen2.5 语言模型支持包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言,能够生成最多 8K tokens 的内容。
专业领域模型
Qwen2.5-Coder 和 Qwen2.5-Math 作为专业领域的专家语言模型,相比前身版本有了实质性的改进。Qwen2.5-Coder 在超过 5.5 T tokens 的编程数据上训练,展现出与大型语言模型相媲美的编程评估性能。Qwen2.5-Math 支持中文和英文,整合了 CoT、PoT 和 TIR 等多种推理方法。
0条评论