圣母大学、腾讯人工智能西雅图实验室的研究人员推出新型多模态大语言模型LEOPARD,它专门为处理包含丰富文本的多图像任务而设计。这类任务在现实世界中非常普遍,比如幻灯片、扫描文档和网页快照等。例如,你是一名学生,需要准备一场关于经济报告的演讲。你手上有一系列包含图表和数据的幻灯片。使用LEOPARD,你可以将这些幻灯片“喂”给模型,它会帮你理解每张幻灯片上的内容以及它们之间的关系,从而生成一份演讲稿的概要。
- GitHub:https://github.com/Jill0001/Leopard
LEOPARD是一个专门设计用于处理涉及多个富含文本图像的视觉-语言任务的MLLM。首先,我们策划了大约一百万个高质量的多模态指令调整数据,专门针对富含文本的多图像场景。其次,我们开发了一个自适应的高分辨率多图像编码模块,根据输入图像的原始宽高比和分辨率动态优化视觉序列长度的分配。在广泛的基准测试上的实验证明了我们的模型在富含文本的多图像评估中的卓越能力,以及在一般领域评估中的竞争性性能。
主要功能:
LEOPARD的主要功能是理解和处理包含大量文本的多张图片。它不仅能理解单张图片上的内容,还能理解多张图片之间的联系和逻辑流程。
主要特点:
- 大规模多模态指令调优数据集:研究者们收集并制作了一个包含约一百万高质量样本的多模态指令调优数据集,专门针对多图像场景。
- 自适应高分辨率多图像编码模块:该模块能动态优化视觉序列长度的分配,根据输入图像的原始宽高比和分辨率进行调整,从而在保持图像细节的同时管理好序列长度。
工作原理:
LEOPARD模型包括视觉编码器、视觉-语言连接器和大型语言模型。图像首先被视觉编码器处理,然后通过视觉-语言连接器将视觉特征映射到语言表示空间,最后由语言模型处理。
具体应用场景:
- 文档理解:比如理解多页合同文档,需要跨页面整合信息以把握整个文档的逻辑流程。
- 幻灯片演示:为了理解整个演示文稿的主旨,需要理解包含独特但相互关联内容的多个幻灯片。
- 网页截图分析:在网页快照中理解用户交互和任务流程,比如自动填写在线表单。
总的来说,LEOPARD通过其创新的数据集和编码策略,在处理包含丰富文本的多图像任务方面表现出色,能够提高效率和准确性。
0条评论