这篇论文介绍了一种名为C3PO(Contextualized Critiques with Constrained Preference Optimization)的新方法,它旨在解决如何让大语言模型(LLMs)根据用户的高级口头反馈进行调整,同时避免在不相关的场景中过度泛化这些反馈。C3PO的核心目标是让模型能够理解何时以及如何应用用户的反馈,同时保持在其他情境下的行为不变。
论文地址:https://arxiv.org/abs/2402.10893
主要功能:
- 生成合成偏好数据集:C3PO使用高级反馈生成一个小的合成偏好数据集,指定反馈应该如何(以及不应该)应用。
- 微调模型:根据合成偏好数据对模型进行微调,同时尽量减少与原始模型在不适用反馈的提示上的分歧。
主要特点:
- 选择性适应:C3PO能够根据反馈的上下文选择性地调整LLM的行为。
- 减少过度泛化:通过在不相关的场景中保持模型行为不变,C3PO减少了不必要的行为变化。
- 无需额外人工标注:C3PO利用现有的指令调整LLM的强先验,不需要额外的人工监督。
工作原理:
C3PO首先使用GPT-4生成与反馈相关的类别,然后生成适用于和不适用于反馈的假设提示。接着,它采样原始模型对这些提示的完成情况,以及根据反馈修改后的版本。然后,C3PO引入一个新的目标来微调LLM的响应行为,这个目标同时最大化了适用于反馈的提示的隐式奖励,并最小化了不适用于反馈的提示的标准交叉熵损失。这样,C3PO在保持模型在相关场景下的行为的同时,调整了在不相关场景下的行为。
应用场景:
C3PO适用于需要根据用户反馈快速调整LLM行为的各种场景,例如个性化的聊天机器人、内容创作助手、教育工具等。用户可以通过提供简单的口头反馈(如“在给老板发邮件时不要使用表情符号”)来定制模型行为,而无需进行复杂的手动调整或提供大量的标注数据。
0条评论