当前位置：首页 > 优惠 >大语言模型>文章详情

新基准测试MM-NIAH：用来评估多模态大语言模型理解长篇多模态文档的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-17)| 分类：大语言模型 | 热度：259 ℃

已关闭评论

新基准测试MM-NIAH：用来评估多模态大语言模型理解长篇多模态文档的能力

AI

上海人工智能实验室OpenGVLab、复旦大学、清华大学、香港中文大学、南京大学、商汤科技研究院和香港大学的研究人员推出新基准测试MM-NIAH，专门用来评估多模态大语言模型（MLLMs）理解长篇多模态文档的能力。例如，我们有一个包含多个图像和文本段落的长文档，其中描述了一个病例。MM-NIAH基准测试要求模型在文档中找到描述病人症状的特定句子（文本针）或者识别出显示关键医学指标的图像（图像针）。然后，模型需要回答与这些“针”相关的问题，比如“病人的主要症状是什么？”或者“图像中显示的医学指标超出正常范围了吗？”。通过这些问题，我们可以评估模型是否真正理解了长篇文档的内容。

项目主页：https://mm-niah.github.io
GitHub：https://github.com/OpenGVLab/MM-NIAH
数据：https://huggingface.co/datasets/OpenGVLab/MM-NIAH

主要功能：

系统性地评估MLLMs对长篇多模态文档的阅读理解能力。

主要特点：

多任务评估：包括检索、计数和推理三种类型的任务。
多模态输入：基准测试涉及文本和图像，模拟了现实世界中复杂的信息环境。
针对性的“攻击”：通过修改基准测试中的问题，测试模型是否能够抵抗这些变化并保持正确答案。

工作原理：

首先，研究者们创建了一个由图像和文本交织而成的“多模态草堆”，即长篇的背景文档。
然后，他们在这些文档中插入了包含关键信息的“针”（即文本或图像），这些“针”就是模型需要检索的目标。
接着，他们使用MLLMs来尝试识别和回答与这些“针”相关的问题，从而评估模型的理解和检索能力。

具体应用场景：

教育和研究：帮助学生和研究人员理解如何从大量资料中提取关键信息。
医疗诊断：辅助医生从病人的病历和检查报告中快速找到重要信息。
法律分析：帮助法律专业人士从复杂的案例文件中检索出关键证据。

论文还提到了实验结果，发现现有的MLLMs在处理图像针时比处理文本针要困难得多，这表明在图像理解方面还有很大的提升空间。此外，研究者们还发现，即使模型在训练时使用了图像-文本交织的数据，也不一定能在MM-NIAH基准测试中表现出更好的性能。这强调了需要进一步研究和开发更有效的训练技术和模型架构。

MM-NIAH 多模态大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：大规模多模态数据集OmniCorpus：包含了十亿级别的图像和文本数据

下一篇：大型图像描述数据集PixelProse：包含了超过1600万个由先进的视觉-语言模型自动生成的图像描述

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录