当前位置：首页 > 优惠 >大语言模型>文章详情

新框架Prism：专门设计用来解耦和评估视觉语言模型的两个关键能力：感知能力和推理能力

推荐人：暴走AI| 商城: AI | 10个月前 (06-23)| 分类：大语言模型 | 热度：218 ℃

已关闭评论

新框架Prism：专门设计用来解耦和评估视觉语言模型的两个关键能力：感知能力和推理能力

上海人工智能实验室、南京大学、香港中文大学、同济大学、南京邮电大学和中国科学技术大学的研究人员推出新框架Prism，它专门设计用来解耦和评估视觉语言模型（VLMs）的两个关键能力：感知能力和推理能力。Prism框架的出现，是因为现有的VLMs在视觉感知和逻辑推理方面的能力往往混杂在一起，难以单独评估，而这两点对于模型的改进至关重要。通过这种分离，Prism不仅能够帮助研究者更好地理解各个模型的优势和局限，还能够通过结合小型VLM和强大的LLM来实现成本效益更高的解决方案。论文中的实验表明，即使使用参数量较小的VLM，只要与合适的LLM结合，也能在多模态基准测试中取得与大型VLM相媲美的性能。

GitHub：https://github.com/SparksJoe/Prism

例如，我们有一张图片，上面有一个时钟显示着时间，还有一个问题：“图片中的时钟指向几点？”在一个传统的VLM中，模型可能直接尝试回答这个问题。但在Prism框架中，首先会有一个VLM来识别并描述图像中的时钟和指针的位置（感知阶段），然后将这些信息以文本形式提供给LLM，LLM再根据这些描述来推断出正确的时间（推理阶段）。