香港大学和华为诺亚方舟实验室的研究人员发布论文,论文的主题是探讨大语言模型(LLMs)在经过安全和可靠性训练(alignment)后,为何仍然容易受到敌意攻击(adversarial attacks),特别是所谓的“越狱”(jailbreaking)现象。越狱指的是LLMs在面对精心设计的提示时,会违反预设的限制,生成不当的输出。论文提出了一个新的视角,将这种脆弱性归因于在训练过程中的奖励错误指定(reward misspecification)。
例如,你有一个智能助手,它可以回答各种问题,但你希望它在回答问题时不会提供有害或不安全的信息。为了让助手遵守这些规则,你可能会对它进行一些训练,让它在提供帮助的同时避免提供不当内容。然而,如果有人发现了训练过程中的漏洞,他们可能会提出一些特别的问题,诱使助手违反规则,比如提供制造假身份证的方法。这就是所谓的“越狱”。
主要功能:
- 奖励错误量化:提出了一个新的度量标准ReGap,用于量化奖励错误指定的程度。
- 自动化红队系统:开发了一个名为ReMiss的系统,它能够自动生成对抗性提示(adversarial prompts),针对各种经过安全训练的LLMs。
主要特点:
- 检测有害后门提示:ReGap度量标准能够有效检测出有害的后门提示,这些提示可以诱使LLMs生成有害响应。
- 保持人类可读性:ReMiss生成的对抗性提示在保持人类可读性的同时,实现了高攻击成功率。
工作原理:
- 奖励模型:将经过安全训练的LLMs视为隐含的奖励模型,通过比较不同响应的奖励来识别错误指定。
- ReGap度量:通过计算对无害响应和有害响应的隐含奖励之间的差异,来量化奖励错误指定的程度。
- 对抗性提示生成:ReMiss利用奖励错误指定的漏洞,通过迭代优化方法生成能够诱使LLMs生成有害响应的对抗性提示。
具体应用场景:
- 安全审计:使用ReMiss对LLMs进行安全审计,检测和评估模型的脆弱性。
- 自动化红队测试:在开发LLMs时,利用ReMiss作为自动化的红队工具,以确保模型在面对潜在的敌意攻击时的安全性和可靠性。
论文还讨论了ReMiss的局限性,例如它依赖于能够访问一个白盒参考模型来计算隐含奖励。此外,论文强调了这项研究的伦理考量,指出虽然ReMiss可以用于识别和利用LLMs的脆弱性,但其核心目的是提高现有安全对齐方法的安全性和可靠性,并强调需要优先考虑和实施缓解策略。
0条评论