清华大学自动化系和卡内基梅隆大学的研究人员推出“模型手术”(Model Surgery),这是一种通过直接编辑大语言模型(LLM)的一小部分参数来调节其行为的方法。这种方法特别适用于希望模型展现出某些理想行为特征,比如无毒性(non-toxicity)和抵抗越狱(jailbreak)尝试的能力。
- GitHub:https://github.com/lucywang720/model-surgery
例如,我们有一个语言模型,它在回答某些问题时可能会产生包含性别歧视或种族歧视的有毒言论。使用模型手术,我们可以通过直接编辑模型的特定参数来减少这种言论的产生。例如,如果模型在回答关于某个族群的问题时产生了贬低性言论,模型手术可以帮助我们识别和调整那些导致这种不当行为的参数,使模型在下次遇到类似问题时能够生成更加中立和尊重的回答。
主要功能
- 行为调节:通过直接编辑参数,调节模型的特定行为,如减少毒性言论或增强对不当请求的抵抗力。
- 保持核心能力:与传统的微调方法相比,模型手术旨在保持模型在常识、问答和数学等基础能力上的表现。
主要特点
- 计算效率高:与需要大量参数通过梯度下降进行调整的监督式微调(SFT)或基于人类反馈的强化学习(RLHF)相比,模型手术只需要推理级的计算资源。
- 参数编辑:通过识别和直接编辑与特定行为强烈相关的参数子集,实现对模型行为的精细控制。
- 行为探针:使用线性分类器作为行为探针,来识别模型隐藏状态空间中的二元行为标签。
工作原理
模型手术包括三个步骤:
- 行为探针提取:训练一对行为探针来分类LLM隐藏状态中的二元行为标签。
- 行为区域选择:识别与行为探针方向相反对齐的门控投影中的行向量作为行为区域。
- 模型手术:通过向选定的参数区域添加行为探针来进行模型手术,激活相应的神经元,将输出在隐藏状态空间中的方向从不希望的行为方向移开。
具体应用场景
- 内容去毒:减少模型生成有害或有偏见内容的能力,例如在RealToxicityPrompts数据集上实现高达90.0%的毒性降低。
- 抵抗越狱尝试:提高模型对恶意提示或越狱尝试的抵抗力,例如将抵抗越狱提示的成功率从64.6%提高到77.4%。
- 积极回应调整:调整模型在面对负面输入时产生更积极内容的能力,例如将积极回应的比率从36.4%提高到54.8%。
0条评论