,专为评估和推动大型多模态模型(Large Multimodal Models,简称LMMs)在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力,但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此,研究者们需要一个更难、更全面的测试来评估这些模型的潜力。论文还对20个当前一代的LMMs进行了评估,并通过多种消融实验来研究模型在哪些方面表现良好,在哪些方面存在挑战。最后,研究者们公开了GRAB基准测试和评估代码,以鼓励该领域的发展。
- 项目主页:https://grab-benchmark.github.io
- GitHub:https://github.com/jonathan-roberts1/GRAB
- 数据:https://huggingface.co/datasets/jonathan-roberts1/GRAB
例如,一个科学家需要从一篇研究论文中的图表快速获取数据趋势,GRAB基准测试可以帮助评估一个LMM是否能够准确地解读这些图表,例如,估计图表中函数的斜率或者计算数据点的平均值。这样的能力对于自动化数据分析和信息提取非常有用。
主要功能:
- 图形分析评估:GRAB能够评估LMMs在解释和分析图表时的性能,例如估计函数的平均值、截距或相关性等。
主要特点:
- 全合成数据:GRAB包含2170个问题,这些问题都是合成生成的,确保了高质量和无噪声。
- 高难度:即使是最顶尖的模型在GRAB上的表现也仅有21.7%的准确率,显示出其高难度。
- 多任务覆盖:基准测试涵盖四个任务和23种图表属性,包括属性分析、函数计算、序列估计和变换处理。
工作原理:
- 合成数据生成:使用Matplotlib库合成图表和问题,控制问题的难度和类型。
- 任务设计:包括分析单一图表属性、计算多个函数或数据序列的平均属性、以及在一系列变换后确定函数的属性。
- 评估方法:通过精确匹配模型输出和正确答案来评估模型的性能。
具体应用场景:
- 科学研究:在科学文献中分析图表和图形,帮助研究人员快速理解数据。
- 教育领域:辅助学生学习如何解读复杂的科学图表和数据分析。
- 商业分析:在商业报告中解读图表,提取关键数据和趋势。
0条评论