当前位置：首页 > 优惠 >大语言模型>文章详情

Math-LLaVA：提升大语言模型在处理多模态数学问题上的能力

推荐人：暴走AI| 商城: AI | 10个月前 (06-29)| 分类：大语言模型 | 热度：265 ℃

已关闭评论

$Math-LLaVA：提升大语言模型在处理多模态数学问题上的能力$

中国电子科技大学、新加坡科技设计大学、同济大学和新加坡国立大学的研究人员推出Math-LLaVA，提升大语言模型（LLMs）在处理多模态数学问题上的能力。多模态数学问题是指那些需要结合图像和文本信息来解决的数学问题，比如根据图表数据计算趋势或者解决几何问题。例如，设有一个图表展示了某地区过去五年的人口增长趋势，Math-LLaVA可以分析图表数据并回答关于人口增长率、峰值时间点等问题。如果图表中包含多个数据系列，比如不同年龄段的人口增长，Math-LLaVA也能够处理并给出综合分析。

GitHub：https://github.com/HZQ950419/Math-LLaVA
模型：https://huggingface.co/Zhiqiang007/Math-LLaVA
数据：https://huggingface.co/datasets/Zhiqiang007/MathV360K

主要功能和特点：

数据集创建：研究者们创建了一个名为MathV360K的数据集，它包含了40K高质量的图像和问题-答案对，并且基于这些图像和种子问题合成了320K新的问题-答案对。
模型改进：他们提出了一个基于LLaVA-1.5模型的新模型，称为Math-LLaVA，该模型通过MathV360K数据集进行微调（fine-tune），显著提高了处理多模态数学问题的能力。
性能提升：Math-LLaVA在MathVista的minitest数据集上的表现比原始的LLaVA-1.5模型提高了19%，并且与GPT-4V的性能相当。
增强的泛化能力：在MMMU基准测试中，Math-LLaVA展示了其改进的泛化能力，相较于原始模型和其他开源MLLMs有显著提升。

工作原理：

数据选择：研究者们从24个现有数据集中筛选出高质量的图像，并基于清晰度和理解复杂性进行分类。
数据增强：通过使用GPT-4V生成额外的问题-答案对，增强了图像的视觉信息利用，并且通过多种方式增加问题的复杂性、逻辑一致性和处理不完全指定语言的能力。
模型微调：使用增强后的数据集对LLaVA-1.5模型进行微调，以此来提高模型对多模态数学问题的理解和推理能力。