腾讯发布基准测试工具SEED-Bench-2-Plus,它专门用于评估多模态大语言模型(MLLMs)在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍,例如图表、地图和网页等,它们都包含了大量的文本信息嵌入在图像中。
主要功能和特点:
- 针对性的评估:SEED-Bench-2-Plus包含2.3K个多项选择题,这些问题覆盖了现实世界中广泛的富含文本的场景,并且都有精确的人类标注答案。
- 三大类别:测试基准分为三个主要类别——图表(Charts)、地图(Maps)和网页(Webs),每个类别下又细分为63种具体的数据类型,以更细致地评估模型面临的挑战。
- 全面评估:报告中对34个著名的MLLMs(包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus)进行了评估,揭示了这些模型在文本丰富视觉理解方面的当前局限性。
- 公开可用:为了促进该领域的进一步研究,SEED-Bench-2-Plus的数据集和评估代码已经公开提供。
工作原理:
SEED-Bench-2-Plus通过构建一个包含多种数据类型的测试集,利用人类标注的答案作为基准,来评估MLLMs对这些文本丰富视觉内容的理解和推理能力。测试集包含的问题需要模型不仅要理解图像内容,还要解读文本信息,并识别文本与视觉内容之间的交互。
具体应用场景:
- 图表理解:比如,给定一个甘特图(Gantt Chart),MLLM需要能够理解图中的时间线和任务进度,并回答相关问题。
- 地图分析:在地图类别中,模型可能需要识别地图上的各种符号和文本,比如政治边界或兴趣点,并基于这些信息回答问题。
- 网页内容解析:对于网页截图,模型需要理解网页布局、设计以及各种元素传达的信息,并回答与网站内容或功能相关的问题。
0条评论