当前位置：首页 > 优惠 >大语言模型>文章详情

新型多模态大语言模型LEOPARD：专门为处理包含丰富文本的多图像任务而设计

推荐人：暴走AI| 商城: AI | 7个月前 (10-05)| 分类：大语言模型 | 热度：241 ℃

已关闭评论

圣母大学、腾讯人工智能西雅图实验室的研究人员推出新型多模态大语言模型LEOPARD，它专门为处理包含丰富文本的多图像任务而设计。这类任务在现实世界中非常普遍，比如幻灯片、扫描文档和网页快照等。例如，你是一名学生，需要准备一场关于经济报告的演讲。你手上有一系列包含图表和数据的幻灯片。使用LEOPARD，你可以将这些幻灯片“喂”给模型，它会帮你理解每张幻灯片上的内容以及它们之间的关系，从而生成一份演讲稿的概要。

GitHub：https://github.com/Jill0001/Leopard

LEOPARD是一个专门设计用于处理涉及多个富含文本图像的视觉-语言任务的MLLM。首先，我们策划了大约一百万个高质量的多模态指令调整数据，专门针对富含文本的多图像场景。其次，我们开发了一个自适应的高分辨率多图像编码模块，根据输入图像的原始宽高比和分辨率动态优化视觉序列长度的分配。在广泛的基准测试上的实验证明了我们的模型在富含文本的多图像评估中的卓越能力，以及在一般领域评估中的竞争性性能。

主要功能：

LEOPARD的主要功能是理解和处理包含大量文本的多张图片。它不仅能理解单张图片上的内容，还能理解多张图片之间的联系和逻辑流程。

主要特点：