上海人工智能实验室OpenGVLab、复旦大学、清华大学、香港中文大学、南京大学、商汤科技研究院和香港大学的研究人员推出新基准测试MM-NIAH,专门用来评估多模态大语言模型(MLLMs)理解长篇多模态文档的能力。例如,我们有一个包含多个图像和文本段落的长文档,其中描述了一个病例。MM-NIAH基准测试要求模型在文档中找到描述病人症状的特定句子(文本针)或者识别出显示关键医学指标的图像(图像针)。然后,模型需要回答与这些“针”相关的问题,比如“病人的主要症状是什么?”或者“图像中显示的医学指标超出正常范围了吗?”。通过这些问题,我们可以评估模型是否真正理解了长篇文档的内容。
- 项目主页:https://mm-niah.github.io
- GitHub:https://github.com/OpenGVLab/MM-NIAH
- 数据:https://huggingface.co/datasets/OpenGVLab/MM-NIAH
主要功能:
- 系统性地评估MLLMs对长篇多模态文档的阅读理解能力。
主要特点:
- 多任务评估:包括检索、计数和推理三种类型的任务。
- 多模态输入:基准测试涉及文本和图像,模拟了现实世界中复杂的信息环境。
- 针对性的“攻击”:通过修改基准测试中的问题,测试模型是否能够抵抗这些变化并保持正确答案。
工作原理:
- 首先,研究者们创建了一个由图像和文本交织而成的“多模态草堆”,即长篇的背景文档。
- 然后,他们在这些文档中插入了包含关键信息的“针”(即文本或图像),这些“针”就是模型需要检索的目标。
- 接着,他们使用MLLMs来尝试识别和回答与这些“针”相关的问题,从而评估模型的理解和检索能力。
具体应用场景:
- 教育和研究:帮助学生和研究人员理解如何从大量资料中提取关键信息。
- 医疗诊断:辅助医生从病人的病历和检查报告中快速找到重要信息。
- 法律分析:帮助法律专业人士从复杂的案例文件中检索出关键证据。
论文还提到了实验结果,发现现有的MLLMs在处理图像针时比处理文本针要困难得多,这表明在图像理解方面还有很大的提升空间。此外,研究者们还发现,即使模型在训练时使用了图像-文本交织的数据,也不一定能在MM-NIAH基准测试中表现出更好的性能。这强调了需要进一步研究和开发更有效的训练技术和模型架构。
0条评论