上海人工智能实验室、南京大学、香港中文大学、同济大学、南京邮电大学和中国科学技术大学的研究人员推出新框架Prism,它专门设计用来解耦和评估视觉语言模型(VLMs)的两个关键能力:感知能力和推理能力。Prism框架的出现,是因为现有的VLMs在视觉感知和逻辑推理方面的能力往往混杂在一起,难以单独评估,而这两点对于模型的改进至关重要。通过这种分离,Prism不仅能够帮助研究者更好地理解各个模型的优势和局限,还能够通过结合小型VLM和强大的LLM来实现成本效益更高的解决方案。论文中的实验表明,即使使用参数量较小的VLM,只要与合适的LLM结合,也能在多模态基准测试中取得与大型VLM相媲美的性能。
- GitHub:https://github.com/SparksJoe/Prism
例如,我们有一张图片,上面有一个时钟显示着时间,还有一个问题:“图片中的时钟指向几点?”在一个传统的VLM中,模型可能直接尝试回答这个问题。但在Prism框架中,首先会有一个VLM来识别并描述图像中的时钟和指针的位置(感知阶段),然后将这些信息以文本形式提供给LLM,LLM再根据这些描述来推断出正确的时间(推理阶段)。
主要功能和特点:
- 模块化设计:Prism将视觉问题解决过程分解为两个阶段:感知阶段和推理阶段,这两个阶段可以灵活替换不同的模型。
- 感知阶段:使用VLM从图像中提取视觉信息,并将其以文本形式表达出来。
- 推理阶段:利用大型语言模型(LLM)根据提取的视觉信息来生成回答。
工作原理:
Prism框架的工作原理是将视觉问题解答的任务分解为两个独立的部分:
- 感知模块:首先,VLM根据指令从图像中提取视觉信息。这个指令可以是通用的,也可以是针对特定查询的。
- 推理模块:然后,一个LLM基于转换后的问题(结合原始问题和文本形式的视觉信息)来生成答案。
具体应用场景:
- 模型评估:Prism可以作为一个评估工具,帮助研究者了解不同VLMs在感知和推理方面的表现。
- 视觉问答:在视觉问答任务中,Prism可以有效地结合小型VLMs(专注于感知)和强大的LLMs(专注于推理),以提高整体性能。
- 多模态任务:Prism框架可以应用于需要结合视觉和语言信息的各种多模态任务,例如图像描述、视觉推理等。
0条评论