当前位置：首页 > 优惠 >大语言模型>文章详情

新型基准测试工具MUIRBENCH：用来评估多模态大语言模型在理解多图像方面的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-16)| 分类：大语言模型 | 热度：257 ℃

已关闭评论

新型基准测试工具MUIRBENCH：用来评估多模态大语言模型在理解多图像方面的能力

AI

南加州大学、宾大、明尼苏达大学、加州大学戴维斯分校、威斯康星大学麦迪逊分校、加州大学洛杉矶分校、俄亥俄州立大学、字节跳动和微软研究院的研究人员推出新型基准测试工具MUIRBENCH，它专门用来评估多模态大型语言模型（LLMs）在理解多图像方面的能力。简单来说，MUIRBENCH测试的是，当AI面对多个图片时，它是否能够正确理解这些图片之间的关系，并且给出准确的描述或答案。

论文地址：https://arxiv.org/abs/2406.09411
数据：https://huggingface.co/datasets/MUIRBENCH/MUIRBENCH

例如你有两张照片，一张是动物园里的熊猫，另一张是同样的熊猫在吃竹子。人类能够理解这两张照片都是关于同一只熊猫的不同场景。MUIRBENCH就是用来测试AI是否能够识别这种关系，并且在给定问题“熊猫在做什么？”时，正确回答“吃竹子”。

主要功能：

评估多模态LLMs在理解多图像方面的能力。
提供12种不同的多图像理解任务，涵盖10种多图像关系类别。

主要特点：

多任务评估：MUIRBENCH包含多种任务，如场景理解、图像排序等。
多图像关系：涉及多视角、时间序列、叙述性等多种图像间的关系。
健壮性评估：每个可回答的实例都有一个最小差异的不可回答变体，以确保评估的可靠性。

工作原理：

数据收集：从现有数据集、衍生数据和新收集的数据中获取多图像多项选择题（MCQA）数据。
数据配对：采用成对设计方法，将每个可回答的实例与一个专家标注的不可回答的对应实例配对。
质量控制：通过自动检查和手动审查确保数据质量。

具体应用场景：

学术研究：研究人员可以使用MUIRBENCH来测试和比较不同模型在多图像理解方面的表现。
模型开发：AI开发者可以利用这个基准测试工具来训练和改进他们的多模态LLMs。
教育和培训：在教育领域，MUIRBENCH可以用来设计课程，教授学生如何理解和分析多图像数据。

论文通过实验表明，即便是最先进的模型，如GPT-4o和Gemini Pro，在MUIRBENCH上的表现也存在局限，这强调了开发能够超越单图像理解的多模态LLMs的重要性。MUIRBENCH旨在推动社区开发出能够更全面地理解视觉世界的模型。

MUIRBENCH 基准测试工具多模态大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：大型多语言多模态文档级语料库mOSCAR

下一篇：大型3D重建模型LRM-Zero：完全使用合成的3D数据进行训练，以实现高质量的稀疏视图3D重建

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录