新型基准测试工具MUIRBENCH:用来评估多模态大语言模型在理解多图像方面的能力

分类:大语言模型 | 热度:128 ℃

南加州大学、宾大、明尼苏达大学、加州大学戴维斯分校、威斯康星大学麦迪逊分校、加州大学洛杉矶分校、俄亥俄州立大学、字节跳动和微软研究院的研究人员推出新型基准测试工具MUIRBENCH,它专门用来评估多模态大型语言模型(LLMs)在理解多图像方面的能力。简单来说,MUIRBENCH测试的是,当AI面对多个图片时,它是否能够正确理解这些图片之间的关系,并且给出准确的描述或答案。

  • 论文地址:https://arxiv.org/abs/2406.09411
  • 数据:https://huggingface.co/datasets/MUIRBENCH/MUIRBENCH

例如你有两张照片,一张是动物园里的熊猫,另一张是同样的熊猫在吃竹子。人类能够理解这两张照片都是关于同一只熊猫的不同场景。MUIRBENCH就是用来测试AI是否能够识别这种关系,并且在给定问题“熊猫在做什么?”时,正确回答“吃竹子”。

主要功能:

  • 评估多模态LLMs在理解多图像方面的能力。
  • 提供12种不同的多图像理解任务,涵盖10种多图像关系类别。

主要特点:

  1. 多任务评估:MUIRBENCH包含多种任务,如场景理解、图像排序等。
  2. 多图像关系:涉及多视角、时间序列、叙述性等多种图像间的关系。
  3. 健壮性评估:每个可回答的实例都有一个最小差异的不可回答变体,以确保评估的可靠性。

工作原理:

  • 数据收集:从现有数据集、衍生数据和新收集的数据中获取多图像多项选择题(MCQA)数据。
  • 数据配对:采用成对设计方法,将每个可回答的实例与一个专家标注的不可回答的对应实例配对。
  • 质量控制:通过自动检查和手动审查确保数据质量。

具体应用场景:

  1. 学术研究:研究人员可以使用MUIRBENCH来测试和比较不同模型在多图像理解方面的表现。
  2. 模型开发:AI开发者可以利用这个基准测试工具来训练和改进他们的多模态LLMs。
  3. 教育和培训:在教育领域,MUIRBENCH可以用来设计课程,教授学生如何理解和分析多图像数据。

论文通过实验表明,即便是最先进的模型,如GPT-4o和Gemini Pro,在MUIRBENCH上的表现也存在局限,这强调了开发能够超越单图像理解的多模态LLMs的重要性。MUIRBENCH旨在推动社区开发出能够更全面地理解视觉世界的模型。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论