当前位置：首页 > 优惠 >大语言模型>文章详情

新型基准测试GRAB：评估和推动大型多模态模型在图形分析方面的能力而设计

推荐人：暴走AI| 商城: AI | 11个月前 (08-23)| 分类：大语言模型 | 热度：196 ℃

已关闭评论

新型基准测试GRAB：评估和推动大型多模态模型在图形分析方面的能力而设计

AI

剑桥大学和香港大学的研究人员推出新型基准测试GRAB，专为评估和推动大型多模态模型（Large Multimodal Models，简称LMMs）在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力，但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此，研究者们需要一个更难、更全面的测试来评估这些模型的潜力。论文还对20个当前一代的LMMs进行了评估，并通过多种消融实验来研究模型在哪些方面表现良好，在哪些方面存在挑战。最后，研究者们公开了GRAB基准测试和评估代码，以鼓励该领域的发展。

项目主页：https://grab-benchmark.github.io
GitHub：https://github.com/jonathan-roberts1/GRAB
数据：https://huggingface.co/datasets/jonathan-roberts1/GRAB

例如，一个科学家需要从一篇研究论文中的图表快速获取数据趋势，GRAB基准测试可以帮助评估一个LMM是否能够准确地解读这些图表，例如，估计图表中函数的斜率或者计算数据点的平均值。这样的能力对于自动化数据分析和信息提取非常有用。

主要功能：

图形分析评估：GRAB能够评估LMMs在解释和分析图表时的性能，例如估计函数的平均值、截距或相关性等。

主要特点：

全合成数据：GRAB包含2170个问题，这些问题都是合成生成的，确保了高质量和无噪声。
高难度：即使是最顶尖的模型在GRAB上的表现也仅有21.7%的准确率，显示出其高难度。
多任务覆盖：基准测试涵盖四个任务和23种图表属性，包括属性分析、函数计算、序列估计和变换处理。

工作原理：

合成数据生成：使用Matplotlib库合成图表和问题，控制问题的难度和类型。
任务设计：包括分析单一图表属性、计算多个函数或数据序列的平均属性、以及在一系列变换后确定函数的属性。
评估方法：通过精确匹配模型输出和正确答案来评估模型的性能。

具体应用场景：

科学研究：在科学文献中分析图表和图形，帮助研究人员快速理解数据。
教育领域：辅助学生学习如何解读复杂的科学图表和数据分析。
商业分析：在商业报告中解读图表，提取关键数据和趋势。

GRAB 基准测试

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新型视频基础模型TWLV-I：提高对视频内容的理解和分析能力，特别是在识别视频中的对象外观和运动方面

下一篇： Meta推出模型家族Sapiens：专门为理解人类视觉任务而设计的一系列模型

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录