强化学习算法

栏目分类

推荐人：暴走AI 标签：强化学习算法 AI

11个月前 (06-06)AI

斯坦福大学、马萨诸塞大学阿默斯特分校和德克萨斯大学奥斯汀分校的研究人员推出强化学习算法Direct Alignment Algorithms（直接对齐算法，简称DAAs），特别是在人类反馈强化学习（Reinforcement Learning from Human Feedback，简称RLHF）中的应用。RLHF是一... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠强化学习算法DR-PO：数据集重置策略优化，主要用于从人类偏好反馈中微调生成模型

推荐人：暴走AI 标签：DR-PO 强化学习算法 AI

1年前 (2024-04-15)AI

来自康奈尔大学、普林斯顿大学和微软的研究人员推出新的强化学习算法数据集重置策略优化（Dataset Reset Policy Optimization，简称DR-PO），主要用于从人类偏好反馈中微调生成模型，例如GPT-4和Claude3 Opus等。这种算法特别适用于当人类标注者提供基于偏好的反馈（例如，对一个强化学... 阅读全文

直达链接好 0 不好 0 已关闭评论