新框架Prism:专门设计用来解耦和评估视觉语言模型的两个关键能力:感知能力和推理能力

分类:大语言模型 | 热度:108 ℃

上海人工智能实验室、南京大学、香港中文大学、同济大学、南京邮电大学和中国科学技术大学的研究人员推出新框架Prism,它专门设计用来解耦和评估视觉语言模型(VLMs)的两个关键能力:感知能力和推理能力。Prism框架的出现,是因为现有的VLMs在视觉感知和逻辑推理方面的能力往往混杂在一起,难以单独评估,而这两点对于模型的改进至关重要。通过这种分离,Prism不仅能够帮助研究者更好地理解各个模型的优势和局限,还能够通过结合小型VLM和强大的LLM来实现成本效益更高的解决方案。论文中的实验表明,即使使用参数量较小的VLM,只要与合适的LLM结合,也能在多模态基准测试中取得与大型VLM相媲美的性能。

  • GitHub:https://github.com/SparksJoe/Prism

例如,我们有一张图片,上面有一个时钟显示着时间,还有一个问题:“图片中的时钟指向几点?”在一个传统的VLM中,模型可能直接尝试回答这个问题。但在Prism框架中,首先会有一个VLM来识别并描述图像中的时钟和指针的位置(感知阶段),然后将这些信息以文本形式提供给LLM,LLM再根据这些描述来推断出正确的时间(推理阶段)。

主要功能和特点:

  1. 模块化设计:Prism将视觉问题解决过程分解为两个阶段:感知阶段和推理阶段,这两个阶段可以灵活替换不同的模型。
  2. 感知阶段:使用VLM从图像中提取视觉信息,并将其以文本形式表达出来。
  3. 推理阶段:利用大型语言模型(LLM)根据提取的视觉信息来生成回答。

工作原理:

Prism框架的工作原理是将视觉问题解答的任务分解为两个独立的部分:

  • 感知模块:首先,VLM根据指令从图像中提取视觉信息。这个指令可以是通用的,也可以是针对特定查询的。
  • 推理模块:然后,一个LLM基于转换后的问题(结合原始问题和文本形式的视觉信息)来生成答案。

具体应用场景:

  • 模型评估:Prism可以作为一个评估工具,帮助研究者了解不同VLMs在感知和推理方面的表现。
  • 视觉问答:在视觉问答任务中,Prism可以有效地结合小型VLMs(专注于感知)和强大的LLMs(专注于推理),以提高整体性能。
  • 多模态任务:Prism框架可以应用于需要结合视觉和语言信息的各种多模态任务,例如图像描述、视觉推理等。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论