WPO

栏目分类

推荐人：暴走AI 标签：WPO 加权偏好优化大语言模型 AI

10个月前 (06-18)AI

Zoomtuic 一种新的强化学习方法WPO（加权偏好优化），它用于改善大语言模型（LLMs）与人类价值观的一致性。具体来说，WPO旨在解决在使用人类反馈进行强化学习（RLHF）时遇到的一些问题，尤其是在离策略（off-policy）偏好优化的情况下。例如，我们有一个聊天机器人，我们希望它在对话中提供安全、有帮助且准确... 阅读全文

直达链接好 0 不好 0 已关闭评论