RLVF

栏目分类

推荐人：暴走AI 标签：C3PO RLVF AI

1年前 (2024-02-19)AI

这篇论文介绍了一种名为C3PO（Contextualized Critiques with Constrained Preference Optimization）的新方法，它旨在解决如何让大语言模型（LLMs）根据用户的高级口头反馈进行调整，同时避免在不相关的场景中过度泛化这些反馈。C3PO的核心目标是让模型能够理解... 阅读全文

直达链接好 0 不好 0 已关闭评论