西北大学和微软的研究人员推出一种新型大语言模型(LLMs)的自我探索方法,称为“自探索语言模型”(Self-Exploring Language Models,简称SELM)。这种方法专门用于在线对齐大型语言模型,即通过人类的反馈来调整和优化语言模型的行为,使其更好地遵循人类的意图。实验结果表明,当SELM应用于Zephyr-7B-SFT和Llama-38B-Instruct模型时,在遵循指令的基准测试(如MT-Bench和AlpacaEval 2.0)以及不同设置下的各种标准学术基准测试中,性能都有显著提升。这证明了SELM在提高大型语言模型的对齐度和能力方面是有效的。
主要功能和特点:
- 主动探索:与以往被动地从模型生成的响应中随机采样不同,SELM通过主动探索来寻找可能带来高回报的新颖响应。
- 双层优化目标:SELM采用双层优化目标,其中上层优化目标是增加潜在高回报响应的可能性,而下层优化目标是调整语言模型以适应这些潜在的高回报响应。
- 乐观偏差:SELM在优化过程中引入了一个乐观项(optimism term),这有助于模型在探索时偏向于那些可能带来更高回报的区域。
- 无需单独的奖励模型:SELM不需要单独训练一个奖励模型(RM),而是直接更新语言模型,简化了迭代过程。
工作原理:
SELM的工作原理可以概括为以下几个步骤:
- 数据集划分:将离线偏好数据集分成几个部分,每次迭代使用其中一部分。
- 生成响应:使用参考模型(如经过监督式微调的模型)生成响应。
- 排名和更新:对生成的响应进行排名,并更新数据集以包含最佳(被选择)和最差(被拒绝)的响应。
- 训练语言模型:通过解决内层问题并重参数化奖励函数,训练语言模型以最大化期望回报,同时减少与参考模型的偏差。
- 迭代优化:通过迭代过程,逐步优化语言模型,使其更好地对齐人类偏好。
具体应用场景:
SELM的应用场景包括但不限于:
- 指令遵循:在聊天机器人或智能助手中,SELM可以帮助模型更好地理解和遵循用户的指令。
- 学术基准测试:在需要模型回答学术问题的场景中,如多项选择题的问答系统,SELM可以提高模型的准确性。
- 语言模型微调:在需要根据特定任务对语言模型进行微调的场景中,SELM可以作为一种有效的在线对齐方法。
- 人机交互系统:在任何需要模型生成多样化、高质量响应的人机交互系统中,SELM都能发挥作用。
0条评论