南加州大学、宾大、明尼苏达大学、加州大学戴维斯分校、威斯康星大学麦迪逊分校、加州大学洛杉矶分校、俄亥俄州立大学、字节跳动和微软研究院的研究人员推出新型基准测试工具MUIRBENCH,它专门用来评估多模态大型语言模型(LLMs)在理解多图像方面的能力。简单来说,MUIRBENCH测试的是,当AI面对多个图片时,它是否能够正确理解这些图片之间的关系,并且给出准确的描述或答案。
- 论文地址:https://arxiv.org/abs/2406.09411
- 数据:https://huggingface.co/datasets/MUIRBENCH/MUIRBENCH
例如你有两张照片,一张是动物园里的熊猫,另一张是同样的熊猫在吃竹子。人类能够理解这两张照片都是关于同一只熊猫的不同场景。MUIRBENCH就是用来测试AI是否能够识别这种关系,并且在给定问题“熊猫在做什么?”时,正确回答“吃竹子”。
主要功能:
- 评估多模态LLMs在理解多图像方面的能力。
- 提供12种不同的多图像理解任务,涵盖10种多图像关系类别。
主要特点:
- 多任务评估:MUIRBENCH包含多种任务,如场景理解、图像排序等。
- 多图像关系:涉及多视角、时间序列、叙述性等多种图像间的关系。
- 健壮性评估:每个可回答的实例都有一个最小差异的不可回答变体,以确保评估的可靠性。
工作原理:
- 数据收集:从现有数据集、衍生数据和新收集的数据中获取多图像多项选择题(MCQA)数据。
- 数据配对:采用成对设计方法,将每个可回答的实例与一个专家标注的不可回答的对应实例配对。
- 质量控制:通过自动检查和手动审查确保数据质量。
具体应用场景:
- 学术研究:研究人员可以使用MUIRBENCH来测试和比较不同模型在多图像理解方面的表现。
- 模型开发:AI开发者可以利用这个基准测试工具来训练和改进他们的多模态LLMs。
- 教育和培训:在教育领域,MUIRBENCH可以用来设计课程,教授学生如何理解和分析多图像数据。
论文通过实验表明,即便是最先进的模型,如GPT-4o和Gemini Pro,在MUIRBENCH上的表现也存在局限,这强调了开发能够超越单图像理解的多模态LLMs的重要性。MUIRBENCH旨在推动社区开发出能够更全面地理解视觉世界的模型。
0条评论