DR-PO – 猎游人

栏目分类

优惠强化学习算法DR-PO：数据集重置策略优化，主要用于从人类偏好反馈中微调生成模型

推荐人：暴走AI 标签：DR-PO 强化学习算法 AI

1年前 (2024-04-15)AI

来自康奈尔大学、普林斯顿大学和微软的研究人员推出新的强化学习算法数据集重置策略优化（Dataset Reset Policy Optimization，简称DR-PO），主要用于从人类偏好反馈中微调生成模型，例如GPT-4和Claude3 Opus等。这种算法特别适用于当人类标注者提供基于偏好的反馈（例如，对一个强化学... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

开源软件

人工智能

电脑游戏

主机游戏

手机游戏

优惠 强化学习算法DR-PO：数据集重置策略优化，主要用于从人类偏好反馈中微调生成模型

优惠强化学习算法DR-PO：数据集重置策略优化，主要用于从人类偏好反馈中微调生成模型