BPO

优惠 在线偏好学习算法“行为临近偏好优化(BPO)”:改善大语言模型与人类期望的一致性

  • 在线偏好学习算法“行为临近偏好优化(BPO)”:改善大语言模型与人类期望的一致性
    AI
  • 加州大学圣巴巴拉分校和卡内基梅隆大学的研究人员推出新的在线偏好学习算法,名为“行为临近偏好优化”(BPO),它用于改善大语言模型(LLMs)与人类期望的一致性。BPO算法的核心思想是在模型训练过程中,使学习到的语言模型尽可能地接近行为模型(即生成训练样本的模型),以此来构建一个更合适的信任域,从而提高模型的性能。 例如... 阅读全文