当前位置：首页 > 情报 >AI情报>文章详情

阿里旗下通义千问推出 Qwen2-VL：开源 2B / 7B 参数视觉大模型，处理任意分辨率图像无需分割成块

7个月前 (08-30) | 分类： AI情报 | 热度： 140 ℃

暂无评论

阿里巴巴旗下通义千问团队今天对 Qwen-VL（视觉语言、Vision Language）模型进行更新，推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。

官方介绍：https://qwenlm.github.io/zh/blog/qwen2-vl
模型地址：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
GitHub：https://github.com/QwenLM/Qwen2-VL
Demo：https://huggingface.co/spaces/Qwen/Qwen2-VL

Qwen2-VL 基于 Qwen2 打造，相比 Qwen-VL，它具有以下特点：

读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
理解20分钟以上的长视频：Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。
多语言支持：为了服务全球用户，除英语和中文外，Qwen2-VL 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

阿里以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，并发布了 Qwen2-VL-72B 的 API！开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。希望能为您提供便捷的开发体验

模型性能

我们从六个方面来评估我们模型的视觉能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看，我们 72B 规模的模型在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，特别是在文档理解方面优势明显，仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。

阿里旗下通义千问推出 Qwen2-VL：开源 2B / 7B 参数视觉大模型，处理任意分辨率图像无需分割成块