新基准测试MM-NIAH:用来评估多模态大语言模型理解长篇多模态文档的能力

分类:大语言模型 | 热度:100 ℃

上海人工智能实验室OpenGVLab、复旦大学、清华大学、香港中文大学、南京大学、商汤科技研究院和香港大学的研究人员推出新基准测试MM-NIAH,专门用来评估多模态大语言模型(MLLMs)理解长篇多模态文档的能力。例如,我们有一个包含多个图像和文本段落的长文档,其中描述了一个病例。MM-NIAH基准测试要求模型在文档中找到描述病人症状的特定句子(文本针)或者识别出显示关键医学指标的图像(图像针)。然后,模型需要回答与这些“针”相关的问题,比如“病人的主要症状是什么?”或者“图像中显示的医学指标超出正常范围了吗?”。通过这些问题,我们可以评估模型是否真正理解了长篇文档的内容。

  • 项目主页:https://mm-niah.github.io
  • GitHub:https://github.com/OpenGVLab/MM-NIAH
  • 数据:https://huggingface.co/datasets/OpenGVLab/MM-NIAH

主要功能

  • 系统性地评估MLLMs对长篇多模态文档的阅读理解能力。

主要特点

  1. 多任务评估:包括检索、计数和推理三种类型的任务。
  2. 多模态输入:基准测试涉及文本和图像,模拟了现实世界中复杂的信息环境。
  3. 针对性的“攻击”:通过修改基准测试中的问题,测试模型是否能够抵抗这些变化并保持正确答案。

工作原理

  • 首先,研究者们创建了一个由图像和文本交织而成的“多模态草堆”,即长篇的背景文档。
  • 然后,他们在这些文档中插入了包含关键信息的“针”(即文本或图像),这些“针”就是模型需要检索的目标。
  • 接着,他们使用MLLMs来尝试识别和回答与这些“针”相关的问题,从而评估模型的理解和检索能力。

具体应用场景

  • 教育和研究:帮助学生和研究人员理解如何从大量资料中提取关键信息。
  • 医疗诊断:辅助医生从病人的病历和检查报告中快速找到重要信息。
  • 法律分析:帮助法律专业人士从复杂的案例文件中检索出关键证据。

论文还提到了实验结果,发现现有的MLLMs在处理图像针时比处理文本针要困难得多,这表明在图像理解方面还有很大的提升空间。此外,研究者们还发现,即使模型在训练时使用了图像-文本交织的数据,也不一定能在MM-NIAH基准测试中表现出更好的性能。这强调了需要进一步研究和开发更有效的训练技术和模型架构。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论