当前位置：首页 > 优惠 >大语言模型>文章详情

RLVF：高效且精准地利用语言反馈，避免过度泛化

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-19)| 分类：大语言模型 | 热度：349 ℃

已关闭评论

这篇论文介绍了一种名为C3PO（Contextualized Critiques with Constrained Preference Optimization）的新方法，它旨在解决如何让大语言模型（LLMs）根据用户的高级口头反馈进行调整，同时避免在不相关的场景中过度泛化这些反馈。C3PO的核心目标是让模型能够理解何时以及如何应用用户的反馈，同时保持在其他情境下的行为不变。

论文地址：https://arxiv.org/abs/2402.10893

主要功能：

生成合成偏好数据集：C3PO使用高级反馈生成一个小的合成偏好数据集，指定反馈应该如何（以及不应该）应用。
微调模型：根据合成偏好数据对模型进行微调，同时尽量减少与原始模型在不适用反馈的提示上的分歧。

RLVF：高效且精准地利用语言反馈，避免过度泛化

主要特点：

选择性适应：C3PO能够根据反馈的上下文选择性地调整LLM的行为。
减少过度泛化：通过在不相关的场景中保持模型行为不变，C3PO减少了不必要的行为变化。
无需额外人工标注：C3PO利用现有的指令调整LLM的强先验，不需要额外的人工监督。

工作原理：

C3PO首先使用GPT-4生成与反馈相关的类别，然后生成适用于和不适用于反馈的假设提示。接着，它采样原始模型对这些提示的完成情况，以及根据反馈修改后的版本。然后，C3PO引入一个新的目标来微调LLM的响应行为，这个目标同时最大化了适用于反馈的提示的隐式奖励，并最小化了不适用于反馈的提示的标准交叉熵损失。这样，C3PO在保持模型在相关场景下的行为的同时，调整了在不相关场景下的行为。

应用场景：

C3PO适用于需要根据用户反馈快速调整LLM行为的各种场景，例如个性化的聊天机器人、内容创作助手、教育工具等。用户可以通过提供简单的口头反馈（如“在给老板发邮件时不要使用表情符号”）来定制模型行为，而无需进行复杂的手动调整或提供大量的标注数据。

好 (0 )

不好 (0 )

C3PO RLVF