腾讯推出全面基准测试Plot2Code,它是为了评估多模态大语言模型(MLLMs)在将科学图表转换为可执行代码方面的能力而设计的。MLLMs在视觉领域的应用取得了显著进展,但它们在将视觉图表转换为代码方面的能力尚未得到充分评估。Plot2Code旨在填补这一空白,提供一个公平且深入的评估框架。
通俗介绍:
想象一下,你有一个复杂的科学图表,你想要一个计算机程序能够自动理解这个图表,并生成创建这个图表的Python代码。Plot2Code就是这样一个工具,它可以帮助你测试和评估不同的人工智能模型是否能够准确地完成这项任务。
主要功能:
- 代码生成评估:评估MLLMs是否能够根据给定的图表图像生成正确的Python代码。
- 多模态理解:测试模型是否能够理解图表的视觉元素以及与之相关的文本内容。
- 代码质量评估:不仅评估代码是否能够执行,还评估生成的图表与参考图表的相似度。
主要特点:
- 综合性:Plot2Code包含多种类型的图表,能够全面评估模型的性能。
- 多模态输入:支持图像和文本的组合输入,模拟真实世界中的应用场景。
- 自动评估指标:包括代码通过率、文本匹配比率和GPT-4V整体评分,为输出代码和渲染图像提供细粒度的评估。
工作原理:
- 数据收集:从公开的matplotlib图库中手动选择高质量的matplotlib图表,为每个图表提供源代码和描述性指令。
- 评估设置:包括直接提问和条件提问两种场景,支持基于文本和图像的输出评估。
- 评估流程:使用GPT-4V模型对生成的代码进行评估,比较生成的图表与参考图表之间的相似度,并给出评分。
具体应用场景:
- 教育和研究:在学术环境中,帮助学生和研究人员理解如何将视觉信息转换为编程任务。
- 自动化报告生成:在商业智能和数据分析领域,自动化地从数据图表生成代码,以创建交互式报告。
- 人工智能开发:推动MLLMs在多模态理解和代码生成方面的研发,提高AI模型的实用性和准确性。
Plot2Code基准测试揭示了现有MLLMs在文本密集型图表的视觉编码方面存在挑战,并依赖于文本指令。该基准测试旨在指导未来MLLMs在视觉编码方面的发展方向。所有与Plot2Code相关的数据都可以在Hugging Face的数据集库中找到。
0条评论