当前位置：首页 > 优惠 >大语言模型>文章详情

全新的视觉数学问题解决基准测试MATHVERSE：评估多模态大语言模型在解决涉及图表的视觉数学问题时的表现

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-22)| 分类：大语言模型 | 热度：197 ℃

已关闭评论

全新的视觉数学问题解决基准测试MATHVERSE：评估多模态大语言模型在解决涉及图表的视觉数学问题时的表现

来自香港中文大学、上海人工智能实验室和加州大学洛杉矶分校的研究人员推出MATHVERSE，这是一个全新的视觉数学问题解决基准测试，专门设计来评估多模态大型语言模型（MLLMs）在解决涉及图表的视觉数学问题时的表现。简单来说，MATHVERSE就像是一个针对数学问题的“视力测试”，但它不仅仅是看模型是否能“看懂”图表，还要看它们是否能准确无误地解决数学问题。

项目主页：https://mathverse-cuhk.github.io/

GitHub：https://github.com/ZrrSkywalker/MathVerse

主要功能和特点：

全面评估： MATHVERSE能够全面评估MLLMs在理解视觉图表和进行数学推理方面的能力。它不仅仅是检查模型是否能给出正确答案，还能评估模型解决问题的中间步骤，就像老师检查学生的解题过程一样。
多样化问题： 该基准测试包含了2612个高质量的数学问题，这些问题覆盖了平面几何、立体几何和函数等多个数学领域，确保了测试的广泛性和深度。
多版本问题： 每个问题都被转换成六个不同版本，每个版本在文本和视觉内容上有所不同，这样可以测试模型在不同信息条件下的表现。

工作原理：

问题转换： 专家注释者将问题转换成不同版本，逐步减少文本信息，增加图表中的信息，迫使模型更多地依赖视觉输入来解决问题。
链式思考（Chain-of-Thought，CoT）评估策略： 这种策略通过分析模型输出的中间步骤来评估其推理过程的质量。例如，如果一个模型在解决问题时跳过了关键步骤或者推理逻辑有误，即使最终答案正确，CoT评估也能揭示出模型的推理缺陷。

好 (0 )

不好 (0 )

MATHVERSE