北京国家通用人工智能重点实验室和约翰霍普金斯大学的研究人员推出ExoViP系统,它是一个用于组合视觉推理的验证和探索工具。ExoViP的核心思想是提高复杂视觉任务中人工智能的推理能力,特别是当这些任务需要将复杂的查询转化为一系列可执行的视觉任务时。ExoViP在多个视觉推理任务上的应用,包括视觉问答、图像编辑和视频推理等,展示了其在标准基准测试上的改进效果。此外,作者还提供了ExoViP的代码链接,供有兴趣的研究者进一步探索和使用。
- GitHub:https://github.com/bigai-nlco/ExoViP
例如,你是一名电影制片人,需要创建一个包含特定场景的镜头。你可以用ExoViP来设计这个场景,系统会根据你的文本描述(比如“一个穿着长袍、戴着帽子的男人”)来生成或编辑图像,确保生成的图像符合你的创意要求。如果生成的图像中男人的帽子颜色与描述不符,ExoViP的验证模块会识别这个错误,并指导系统进行修正。
主要功能:
- 逐步验证:ExoViP通过一系列验证模块,逐步检查并纠正视觉模块的预测错误。
- 计划修正:它还通过树状搜索算法,利用大型语言模型(LLMs)的自我修正能力来优化推理路径。
主要特点:
- 组合视觉推理:ExoViP适用于需要多步骤视觉推理的复杂任务。
- “即插即用”:作为一个模块化的系统,ExoViP可以轻松集成到现有的视觉语言编程方案中。
工作原理:
- 执行模块预测:系统首先使用视觉模块对输入的视觉任务进行预测。
- 验证预测:然后,ExoViP的验证模块(可以想象成“外骨骼”)对预测结果进行验证,这些模块包括图像-文本匹配验证器、图像字幕验证器和视觉问答(VQA)验证器。
- 校准和搜索:根据验证得分,ExoViP校准视觉模块的预测,并使用树状搜索算法寻找最优的推理路径。
具体应用场景:
- 视觉问答:在给定的图像上,系统可以根据语言输入生成问题的答案。
- 图像编辑:根据文本指令对图像进行编辑,比如在图像中添加或删除特定的对象。
- 视频推理:分析视频内容,理解视频中的事件和动作。
0条评论