腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能

分类:大语言模型 | 热度:113 ℃

腾讯发布基准测试工具SEED-Bench-2-Plus,它专门用于评估多模态大语言模型(MLLMs)在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍,例如图表、地图和网页等,它们都包含了大量的文本信息嵌入在图像中。

主要功能和特点:

  1. 针对性的评估:SEED-Bench-2-Plus包含2.3K个多项选择题,这些问题覆盖了现实世界中广泛的富含文本的场景,并且都有精确的人类标注答案。
  2. 三大类别:测试基准分为三个主要类别——图表(Charts)、地图(Maps)和网页(Webs),每个类别下又细分为63种具体的数据类型,以更细致地评估模型面临的挑战。
  3. 全面评估:报告中对34个著名的MLLMs(包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus)进行了评估,揭示了这些模型在文本丰富视觉理解方面的当前局限性。
  4. 公开可用:为了促进该领域的进一步研究,SEED-Bench-2-Plus的数据集和评估代码已经公开提供。

工作原理:

SEED-Bench-2-Plus通过构建一个包含多种数据类型的测试集,利用人类标注的答案作为基准,来评估MLLMs对这些文本丰富视觉内容的理解和推理能力。测试集包含的问题需要模型不仅要理解图像内容,还要解读文本信息,并识别文本与视觉内容之间的交互。

具体应用场景:

  1. 图表理解:比如,给定一个甘特图(Gantt Chart),MLLM需要能够理解图中的时间线和任务进度,并回答相关问题。
  2. 地图分析:在地图类别中,模型可能需要识别地图上的各种符号和文本,比如政治边界或兴趣点,并基于这些信息回答问题。
  3. 网页内容解析:对于网页截图,模型需要理解网页布局、设计以及各种元素传达的信息,并回答与网站内容或功能相关的问题。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论