DR-PO

优惠 强化学习算法DR-PO:数据集重置策略优化,主要用于从人类偏好反馈中微调生成模型

  • 强化学习算法DR-PO:数据集重置策略优化,主要用于从人类偏好反馈中微调生成模型
    AI
  • 来自康奈尔大学、普林斯顿大学和微软的研究人员推出新的强化学习算法数据集重置策略优化(Dataset Reset Policy Optimization,简称DR-PO),主要用于从人类偏好反馈中微调生成模型,例如GPT-4和Claude3 Opus等。这种算法特别适用于当人类标注者提供基于偏好的反馈(例如,对一个强化学... 阅读全文