Google DeepMind推出新型策略WARP(Weight Averaged Rewarded Policies),用于通过人类反馈进行强化学习(RLHF)以对大型语言模型(LLMs)进行对齐。这种策略的目的是在使用人类偏好训练的奖励模型来优化语言模型时,平衡模型性能和保持预训练知识。论文通过一系列实验验证了WARP策略的有效性,展示了它如何在不同的迭代中逐步改进模型性能,并在多个基准测试中取得了优于其他开源大型语言模型的结果。
例如,我们有一个大型语言模型,它在预训练阶段学习了广泛的知识。在实际应用中,我们希望这个模型能够根据人类的反馈生成更符合特定任务的输出。但是,如果我们只关注奖励最大化,模型可能会忘记它之前学到的一些重要知识。通过使用WARP策略,我们可以在保持模型对新任务的高奖励输出的同时,确保它不会丢失预训练阶段的知识,比如在处理复杂的问答或文本生成任务时。
主要功能和特点:
- 平衡性能与知识保留:WARP通过在权重空间合并策略,旨在优化奖励和KL(Kullback-Leibler)正则化之间的权衡,以保持模型在获得高奖励的同时,不忘记预训练阶段学到的广泛知识。
- 三阶段模型融合:WARP包含三个阶段:使用指数移动平均(EMA)作为KL正则化中的动态锚点;通过球面插值(SLERP)合并独立微调的策略;以及通过线性插值(LITI)恢复预训练特征。
- 迭代优化:WARP可以迭代应用,每次迭代的最终模型作为下一次的高级初始化,逐步改进KL-奖励的帕累托前沿。
工作原理:
WARP的工作原理基于以下几个关键步骤:
- EMA作为动态锚点:在RL微调过程中,使用策略自身的EMA作为KL正则化的锚点,而不是固定的SFT(Supervised Fine-Tuning)初始化,以实现更稳定的探索和自动退火。
- 球面插值合并:考虑多个独立RL微调出的策略,通过SLERP合并它们的任务向量,创建一个通过结合各个策略的优势而获得更高奖励的合并模型。
- 线性插值恢复特征:从SLERP合并的模型开始,WARP通过LITI向初始化模型进行线性插值,以恢复预训练阶段的特征。
具体应用场景:
WARP的应用场景包括但不限于:
- 对话代理:如Gemini和GPT-4,它们在复杂任务中表现出色,包括数学、编程和工具使用等。
- 安全部署:随着LLMs变得更加强大,与人类价值观对齐变得至关重要,以确保安全部署。
- 多模态任务:在需要结合视觉和语言能力的任务中,WARP可以帮助优化模型性能。
0条评论