新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计

分类:大语言模型 | 热度:23 ℃

剑桥大学和香港大学的研究人员推出新型基准测试GRAB,专为评估和推动大型多模态模型(Large Multimodal Models,简称LMMs)在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力,但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此,研究者们需要一个更难、更全面的测试来评估这些模型的潜力。论文还对20个当前一代的LMMs进行了评估,并通过多种消融实验来研究模型在哪些方面表现良好,在哪些方面存在挑战。最后,研究者们公开了GRAB基准测试和评估代码,以鼓励该领域的发展。

  • 项目主页:https://grab-benchmark.github.io
  • GitHub:https://github.com/jonathan-roberts1/GRAB
  • 数据:https://huggingface.co/datasets/jonathan-roberts1/GRAB

例如,一个科学家需要从一篇研究论文中的图表快速获取数据趋势,GRAB基准测试可以帮助评估一个LMM是否能够准确地解读这些图表,例如,估计图表中函数的斜率或者计算数据点的平均值。这样的能力对于自动化数据分析和信息提取非常有用。

主要功能:

  • 图形分析评估:GRAB能够评估LMMs在解释和分析图表时的性能,例如估计函数的平均值、截距或相关性等。

主要特点:

  1. 全合成数据:GRAB包含2170个问题,这些问题都是合成生成的,确保了高质量和无噪声。
  2. 高难度:即使是最顶尖的模型在GRAB上的表现也仅有21.7%的准确率,显示出其高难度。
  3. 多任务覆盖:基准测试涵盖四个任务和23种图表属性,包括属性分析、函数计算、序列估计和变换处理。

工作原理:

  • 合成数据生成:使用Matplotlib库合成图表和问题,控制问题的难度和类型。
  • 任务设计:包括分析单一图表属性、计算多个函数或数据序列的平均属性、以及在一系列变换后确定函数的属性。
  • 评估方法:通过精确匹配模型输出和正确答案来评估模型的性能。

具体应用场景:

  • 科学研究:在科学文献中分析图表和图形,帮助研究人员快速理解数据。
  • 教育领域:辅助学生学习如何解读复杂的科学图表和数据分析。
  • 商业分析:在商业报告中解读图表,提取关键数据和趋势。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论