以色列理工学院和谷歌的研究人员推出一个名为NL-EYE的基准测试,它是为了评估视觉语言模型(VLMs)在图像上进行推理的能力而设计的。例如,一个基于VLM的机器人检测到地板湿了,它是否会警告我们小心滑倒?这就是NL-EYE想要测试的——VLMs是否能够理解图像内容,并据此做出合理的推断。
- 项目主页:https://venturamor.github.io/NLEye
主要功能:
NL-EYE的主要功能是检验VLMs是否能够进行“视觉归纳推理”。它通过给模型展示一张前提图像和两张假设图像,然后让模型判断哪张假设图像更有可能发生,并解释其决策。
主要特点:
- 多模态推理:NL-EYE要求模型不仅能“看”图像,还要能“思考”图像内容。
- 高质量的数据集:它包含350个精心策划的图像三元组,涵盖物理、功能、逻辑、情感、文化和社会等不同的推理类别。
- 详细的注释:每个例子都包含前提图像、假设图像、正确假设的标签以及解释为什么一个假设比另一个更合理。
工作原理:
NL-EYE的工作原理模仿了自然语言推理(NLI)任务,但是它是应用于视觉领域。模型需要分析前提图像和假设图像之间的关系,并推断出哪个假设更符合实际情况。这需要模型能够理解图像内容、识别对象及其相互关系,并将这些信息结合起来进行推理。
具体应用场景:
- 事故预防机器人:比如在检测到湿滑地面时,能够推断出有滑倒的风险,并发出警告。
- 生成视频验证:在自动生成的视频内容中,NL-EYE可以帮助模型理解视频的发展脉络,确保视频内容的连贯性和合理性。
- 日常场景监测:比如在家庭自动化系统中,模型可以监测家中的异常情况(如孩子哭泣)并推断出可能的原因(如尿布湿了),从而提醒家长采取行动。
举例说明: 假设前提图像是一个婴儿在地板上爬行,两张假设图像分别是:一张是婴儿旁边放着一个干净的尿布,另一张是婴儿旁边放着一个脏尿布。NL-EYE会要求VLM推断哪个假设更有可能,并且解释为什么。一个合理的解释可能是:“婴儿旁边放着脏尿布的图像更合理,因为如果尿布脏了,婴儿可能会感到不舒服并开始哭泣。”
0条评论