当前位置：首页 > 优惠 >大语言模型>文章详情

基准测试NL-EYE：评估视觉语言模型（VLMs）在图像上进行推理的能力

推荐人：暴走AI| 商城: AI | 9个月前 (10-07)| 分类：大语言模型 | 热度：295 ℃

已关闭评论

以色列理工学院和谷歌的研究人员推出一个名为NL-EYE的基准测试，它是为了评估视觉语言模型（VLMs）在图像上进行推理的能力而设计的。例如，一个基于VLM的机器人检测到地板湿了，它是否会警告我们小心滑倒？这就是NL-EYE想要测试的——VLMs是否能够理解图像内容，并据此做出合理的推断。

项目主页：https://venturamor.github.io/NLEye

主要功能：

NL-EYE的主要功能是检验VLMs是否能够进行“视觉归纳推理”。它通过给模型展示一张前提图像和两张假设图像，然后让模型判断哪张假设图像更有可能发生，并解释其决策。

主要特点：

多模态推理：NL-EYE要求模型不仅能“看”图像，还要能“思考”图像内容。
高质量的数据集：它包含350个精心策划的图像三元组，涵盖物理、功能、逻辑、情感、文化和社会等不同的推理类别。
详细的注释：每个例子都包含前提图像、假设图像、正确假设的标签以及解释为什么一个假设比另一个更合理。

工作原理：

NL-EYE的工作原理模仿了自然语言推理（NLI）任务，但是它是应用于视觉领域。模型需要分析前提图像和假设图像之间的关系，并推断出哪个假设更符合实际情况。这需要模型能够理解图像内容、识别对象及其相互关系，并将这些信息结合起来进行推理。

具体应用场景：

事故预防机器人：比如在检测到湿滑地面时，能够推断出有滑倒的风险，并发出警告。
生成视频验证：在自动生成的视频内容中，NL-EYE可以帮助模型理解视频的发展脉络，确保视频内容的连贯性和合理性。
日常场景监测：比如在家庭自动化系统中，模型可以监测家中的异常情况（如孩子哭泣）并推断出可能的原因（如尿布湿了），从而提醒家长采取行动。

举例说明：假设前提图像是一个婴儿在地板上爬行，两张假设图像分别是：一张是婴儿旁边放着一个干净的尿布，另一张是婴儿旁边放着一个脏尿布。NL-EYE会要求VLM推断哪个假设更有可能，并且解释为什么。一个合理的解释可能是：“婴儿旁边放着脏尿布的图像更合理，因为如果尿布脏了，婴儿可能会感到不舒服并开始哭泣。”

好 (0 )

不好 (0 )

NL-EYE 基准测试