来自上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学和香港中文大学的研究人员推出开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距。多模态大语言模型结合了视觉和语言处理的能力,可以处理包含文本和图像的任务,比如解释图片内容、理解文档中的文本等。
- GitHub:https://github.com/OpenGVLab/InternVL
- 模型:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
- Demo:https://internvl.opengvlab.com
例如,你有一个包含图表和文本的文档,需要提取其中的信息并回答有关文档内容的问题。InternVL 1.5可以阅读和理解文档的视觉和语言内容,然后以自然语言的形式回答问题。例如,如果图表展示了不同年份的云服务市场规模,InternVL 1.5可以计算并告诉你最高和最低收入年份之间的市场规模差异。
主要功能和特点:
- 强大的视觉编码器:通过连续学习策略提升了大规模视觉基础模型InternViT-6B的视觉理解能力,使其能够在不同的大型语言模型中迁移和重用。
- 动态高分辨率处理:模型能够根据输入图像的宽高比和分辨率动态地将图像分割成448×448像素的小块,支持高达4K分辨率的输入。
- 高质量双语数据集:精心收集并标注了涵盖常见场景、文档图像的高质量双语(英语和中文)数据集,显著提升了模型在光学字符识别(OCR)和中文相关任务中的性能。
- 竞争性能:在18个代表性的多模态基准测试中,InternVL 1.5在8个测试中实现了最先进的结果,与商业模型相比显示出竞争性能。
工作原理:
InternVL 1.5采用了类似于其他流行的开源MLLMs的架构,结合了预训练的InternViT-6B和InternLM2-20B模型。在训练过程中,模型采用了动态分辨率策略,将图像分割成不同数量的448×448像素小块。此外,为了捕获全局上下文,还额外包含了整个图像的缩略图。模型通过这种设计能够在不同的视觉领域中灵活适应,同时保持对输入图像细节的敏感性。
具体应用场景:
- 文档理解:可以用于理解和解释文档中的文本内容,包括OCR任务。
- 图像问答:能够回答有关图像内容的问题,如识别图像中的对象或场景。
- 多模态对话:在对话系统中,可以结合视觉和语言信息,提供更加丰富和准确的交互体验。
- 科学图像理解:能够解读和分析科学图表和图像,支持科学研究和教育。
- 跨语言理解:得益于双语数据集,模型能够处理和理解中英文本,适用于多语言环境。
0条评论