Open AI 推出了一个基于 GPT-4训练了的CriticGPT模型,用来帮助人类发现ChatGPT生成的代码中的错误,当人们在 CriticGPT 的帮助下审查 ChatGPT 代码时,他们的表现比没有帮助的人高出 60%。Open AI 已经将CriticGPT模型集成到他们的RLHF标注流程中。
- 官方:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4
- 技术报告:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
官方介绍全文翻译:
我们训练了一个基于 GPT-4 的模型,称为 CriticGPT(CriticGPT),用于捕捉 ChatGPT 代码输出中的错误。我们发现,当人们在 CriticGPT 的帮助下审查 ChatGPT 代码时,他们的表现比没有帮助的人高出 60%。我们正开始将类似 CriticGPT 的模型集成到我们的 RLHF(Reinforcement Learning from Human Feedback,即基于人类反馈的强化学习)标注流程中,为我们的培训师提供明确的 AI 辅助。这是朝着能够评估高级 AI 系统输出迈出的一步,这些系统对于人们来说,如果没有更好的工具,可能很难进行评分。
驱动 ChatGPT 的 GPT-4 系列模型通过 “基于人类反馈的强化学习(RLHF)”被调整为乐于助人和互动。RLHF 的关键部分是收集比较,在这些比较中,被称为 AI 培训师的人们相互评价不同的 ChatGPT 响应。
随着我们在推理和模型行为上的进步,ChatGPT 变得更准确,其错误也变得更微妙。这可能使得 AI 培训师在确实出现错误时难以发现不准确之处,使得 RLHF 的比较任务变得更加困难。这是 RLHF 的一个根本性限制,随着模型逐渐比任何能提供反馈的人更有知识,可能使得对模型的调整变得越来越困难。
为了帮助应对这一挑战,我们训练了 CriticGPT 来撰写批评意见,突出 ChatGPT 答案中的不准确之处。
CriticGPT 的建议并不总是正确的,但我们发现它们可以帮助培训师发现模型编写答案中的更多问题,而这是他们在没有 AI 帮助的情况下做不到的。此外,当人们使用 CriticGPT 时,AI 增强了他们的技能,产生了比单独工作时更全面的批评,并且比模型单独工作时出现的幻觉错误要少。在我们的实验中,第二名随机培训师在超过 60% 的时间里,更倾向于来自 Human+CriticGPT 团队的批评,而不是来自未受协助的人。
方法
CriticGPT 也是通过 RLHF 训练的,类似于 ChatGPT。但与 ChatGPT 不同的是,它看到了大量包含错误的输入,然后它必须对这些错误进行批评。我们要求 AI 培训师手动将这些错误插入到 ChatGPT 编写的代码中,然后撰写示例反馈,就好像他们已经发现了他们刚刚插入的错误。然后同一个人比较修改后的代码的多个批评,这样他们就可以很容易地看出什么时候批评抓住了他们插入的错误。在我们的实验中,我们研究了 CriticGPT 是否能抓住插入的错误和 “自然发生” 的 ChatGPT 错误,这些错误是先前的培训师已经发现的。我们发现,在自然发生的错误中,63% 的情况下,培训师更喜欢 CriticGPT 的批评而不是 ChatGPT 的批评,部分原因是新批评者产生的 “nitpicks”(无用的小小抱怨)更少,出现的幻觉问题也更少。
我们还发现,我们可以通过在批评奖励模型上使用额外的测试时间搜索来生成更长、更全面的批评。这种搜索程序允许我们平衡我们寻找代码问题的积极性,并在幻觉和检测到的错误数量之间配置精确度-召回率权衡。这意味着我们可以生成对 RLHF 尽可能有帮助的批评。更多详情请参见我们的研究论文。
限制
- 我们在相当短的 ChatGPT 答案上训练了 CriticGPT。为了监督未来的代理,我们将需要开发可以帮助培训师理解长期和复杂任务的方法。
- 模型仍然会产生幻觉,有时培训师在看到这些幻觉后也会犯标签错误。
- 有时现实世界的错误可能遍布答案的许多部分。我们的工作集中在可以在一个地方指出的错误上,但未来我们也需要解决分散的错误。
- CriticGPT 只能提供有限的帮助:如果一个任务或响应极其复杂,即使是专家在模型的帮助下也可能无法正确评估。
下一步
为了调整日益复杂的 AI 系统,我们需要更好的工具。在对 CriticGPT 的研究中,我们发现将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生产更好的 RLHF 数据。我们计划进一步扩大这项工作,并将其付诸实践。
0条评论