Stepwise ORMs (SORMs):改进大语言模型的推理能力,通过全局和局部的精炼来提升其在数学、科学或编程等任务上的表现

分类:大语言模型 | 热度:182 ℃

来自Meta 、、乔治亚理工学院、StabilityAI的研究人员提出了一种名为“Stepwise ORMs (SORMs)”的方法,旨在提高大语言模型(LLMs)在解决数学、科学或编程问题时的推理能力这是一种在合成数据上训练的模型,用于更准确地预测最终答案的正确性,从而帮助LLMs在需要时进行自我修正。

论文地址:https://arxiv.org/abs/2402.10963

主要功能:

SORMs的主要功能是帮助LLMs在解决复杂问题时,能够更准确地识别出何时(when)以及在哪里(where)需要进行修正。这使得LLMs能够在没有外部反馈的情况下,提高其推理任务的准确性。该方法的目标是提高大型语言模型(LLM)的推理能力。它主要通过两种方式进行精炼:全局精炼和局部精炼。全局精炼是指对整个答案进行修正,而局部精炼则专注于修正答案中的特定错误部分。

主要特点:

  1. 无需人类标注:SORMs完全基于合成数据进行训练,不需要人类标注的步骤,这降低了训练成本。
  2. 提高修正准确性:SORMs在识别错误推理步骤方面比传统的Outcome-Based Reward Models (ORMs)更准确,从而提高了修正后的准确性。
  3. 全局和局部精炼:研究者们还提出了全局和局部精炼模型,分别处理整个推理过程和局部错误步骤的修正。

工作原理: SORMs的工作原理分为几个关键步骤:

  1. 学生模型训练:首先,使用强化学习(RL)对基础模型进行微调,生成一个能够产生高质量答案的学生模型。
  2. SORM训练:然后,通过在训练数据上多次采样学生模型,生成SORM训练数据。SORM被训练来预测在每一步是否能够成功到达正确答案。
  3. 精炼模型训练:使用SORM生成的训练数据,训练全局和局部精炼模型。全局模型尝试修正整个推理过程,而局部模型则专注于修正第一个错误步骤。
  4. 选择最佳答案:在测试时,使用ORM作为重排器(reranker),结合全局和局部精炼模型的结果,选择最佳答案。

具体应用场景: SORMs和相应的精炼模型可以应用于各种需要复杂推理能力的场景,例如:

  • 数学问题解决:在数学问题解决中,模型可以帮助学生或教师快速找到错误并提供正确的解题步骤。
  • 编程任务:在编程领域,模型可以帮助开发者识别代码中的错误并提出改进建议。
  • 科学推理:在科学研究中,模型可以辅助科学家验证假设和实验结果,提高研究的准确性。

总的来说,SORMs通过在合成数据上训练,提高了LLMs在推理任务中的自我修正能力,使得模型能够在没有外部帮助的情况下,更有效地解决复杂问题。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论