WE-MATH

优惠 基准测试WE-MATH:专门用来评估这些模型在解决视觉数学问题时所遵循的解题原则

  • 基准测试WE-MATH:专门用来评估这些模型在解决视觉数学问题时所遵循的解题原则
    AI
  • 北京邮电大学、 腾讯、华中科技大学和北京技术研究院的研究人员推出基准测试WE-MATH,测试大型多模态模型(Large Multimodal Models,简称LMMs)在进行数学推理时是否能达到类似人类的水平,专门用来评估这些模型在解决视觉数学问题时所遵循的解题原则,而不仅仅是最终结果。 项目主页:https://w... 阅读全文