当前位置：首页 > 优惠 >大语言模型>文章详情

基准测试WE-MATH：专门用来评估这些模型在解决视觉数学问题时所遵循的解题原则

推荐人：暴走AI| 商城: AI | 10个月前 (07-02)| 分类：大语言模型 | 热度：264 ℃

已关闭评论

$基准测试WE-MATH：专门用来评估这些模型在解决视觉数学问题时所遵循的解题原则$

北京邮电大学、腾讯、华中科技大学和北京技术研究院的研究人员推出基准测试WE-MATH，测试大型多模态模型（Large Multimodal Models，简称LMMs）在进行数学推理时是否能达到类似人类的水平，专门用来评估这些模型在解决视觉数学问题时所遵循的解题原则，而不仅仅是最终结果。

项目主页：https://we-math.github.io、
GitHub：https://github.com/We-Math/We-Math
数据集：https://huggingface.co/datasets/We-Math/We-Math

例如，有一个数学问题，要求求解一个图形的面积。人类会首先识别图形的类型，然后应用相关的面积计算公式。WE-MATH会评估LMMs是否能够正确识别图形并应用正确的公式，以及它们是否能够解释解题步骤，就像人类老师那样。如果模型只是记住了类似问题的答案，而没有展示出对知识点的真正理解，WE-MATH就会将其分类为Rote Memorization，这表明模型的推理能力还有待提高。

主要功能：

评估LMMs的数学推理能力：WE-MATH能够细致地评估模型是否真正理解了数学问题背后的原理，还是仅仅通过记忆或模式识别来得到答案。

主要特点：

多层次知识结构：WE-MATH根据数学教科书中的知识单元构建，将复合问题分解为基于知识点的子问题。
基于知识的评估：通过分解问题，评估模型是否能够逐步利用基础知识概念来解决问题。
知识概念增强：为了解决模型在知识掌握上的不足，提供了从维基百科和教科书中提取的67个知识概念的描述，帮助模型进行推理。

工作原理：

问题分解：将复杂的数学问题分解为多个基于不同知识点的子问题。
四维评估指标：引入了Insufficient Knowledge (IK)、Inadequate Generalization (IG)、Complete Mastery (CM)和Rote Memorization (RM)四个维度来评估模型的推理过程。
知识增强策略：通过提供相关知识点的描述，帮助模型更好地理解和应用数学概念。