迭代推理偏好优化Iterative RPO:提高大语言模型(LLMs)在推理任务中的表现

分类:大语言模型 | 热度:129 ℃

Meta和纽约大学的研究人员发布论文,这篇论文的主题是关于如何提高大语言模型(LLMs)在推理任务中的表现。研究者们开发了一种迭代推理偏好优化(Iterative Reasoning Preference Optimization,简称Iterative RPO)的方法,这种方法特别关注基于“思维链”(Chain-of-Thought,简称CoT)的推理过程。通过迭代优化,模型在处理推理任务时的准确性得到了显著提升。

举例说明:假设我们有一个数学问题,问的是“一个教室里有3个男孩和2个女孩,总共有多少个孩子?”使用Iterative RPO方法,语言模型首先会尝试生成多个推理步骤,比如“首先确定男孩的数量,然后女孩的数量,最后将它们相加”。然后,模型会给出最终答案“5”。在这个过程中,如果模型给出的答案正确,这个答案对应的推理步骤和答案就会在偏好对中作为胜出者;如果答案错误,则作为落败者。通过这种方式,模型在后续迭代中逐渐学习并提高其推理和答案的准确性。

主要功能:

  • 提高大型语言模型在推理任务中的准确性。
  • 通过迭代训练,逐步提升模型的性能。

主要特点:

  1. 迭代优化:通过重复迭代,不断优化模型的推理能力。
  2. 偏好对构建:在每次迭代中,根据模型生成的多个推理步骤和最终答案,构建偏好对,其中胜出者(winners)有正确答案,而落败者(losers)有错误答案。
  3. 结合DPO和NLL损失:使用修改后的直接偏好优化(Direct Preference Optimization,简称DPO)损失函数,并加入额外的负对数似然(Negative Log-Likelihood,简称NLL)项,这对于性能至关重要。

工作原理:

  1. 初始化:从一个预训练或指令调整的语言模型开始,给定一组训练输入和正确答案。
  2. 思维链与答案生成:使用当前模型生成每个输入的N个不同响应,每个响应包括推理步骤和最终答案。
  3. 偏好优化:基于当前模型生成的数据构建偏好对数据集,并使用结合了DPO损失和NLL损失的函数来训练新模型。

具体应用场景:

  • 数学问题解答:使用GSM8K数据集,包含真实的小学生数学问题。模型需要生成推理步骤并给出最终答案。
  • 科学问题解答:使用ARC-Challenge数据集,包含多个科学领域的选择题。模型需要生成推理步骤并选择正确答案。
  • 高级数学问题:使用MATH数据集,包含竞赛级别的数学问题。模型同样需要生成推理步骤并给出格式化的最终答案。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论