ReMiss:大语言模型在经过安全和可靠性训练后,为何仍然容易受到敌意攻击

分类:大语言模型 | 热度:116 ℃

香港大学和华为诺亚方舟实验室的研究人员发布论文,论文的主题是探讨大语言模型(LLMs)在经过安全和可靠性训练(alignment)后,为何仍然容易受到敌意攻击(adversarial attacks),特别是所谓的“越狱”(jailbreaking)现象。越狱指的是LLMs在面对精心设计的提示时,会违反预设的限制,生成不当的输出。论文提出了一个新的视角,将这种脆弱性归因于在训练过程中的奖励错误指定(reward misspecification)。

例如,你有一个智能助手,它可以回答各种问题,但你希望它在回答问题时不会提供有害或不安全的信息。为了让助手遵守这些规则,你可能会对它进行一些训练,让它在提供帮助的同时避免提供不当内容。然而,如果有人发现了训练过程中的漏洞,他们可能会提出一些特别的问题,诱使助手违反规则,比如提供制造假身份证的方法。这就是所谓的“越狱”。

主要功能:

  • 奖励错误量化:提出了一个新的度量标准ReGap,用于量化奖励错误指定的程度。
  • 自动化红队系统:开发了一个名为ReMiss的系统,它能够自动生成对抗性提示(adversarial prompts),针对各种经过安全训练的LLMs。

主要特点:

  • 检测有害后门提示:ReGap度量标准能够有效检测出有害的后门提示,这些提示可以诱使LLMs生成有害响应。
  • 保持人类可读性:ReMiss生成的对抗性提示在保持人类可读性的同时,实现了高攻击成功率。

工作原理:

  1. 奖励模型:将经过安全训练的LLMs视为隐含的奖励模型,通过比较不同响应的奖励来识别错误指定。
  2. ReGap度量:通过计算对无害响应和有害响应的隐含奖励之间的差异,来量化奖励错误指定的程度。
  3. 对抗性提示生成:ReMiss利用奖励错误指定的漏洞,通过迭代优化方法生成能够诱使LLMs生成有害响应的对抗性提示。

具体应用场景:

  • 安全审计:使用ReMiss对LLMs进行安全审计,检测和评估模型的脆弱性。
  • 自动化红队测试:在开发LLMs时,利用ReMiss作为自动化的红队工具,以确保模型在面对潜在的敌意攻击时的安全性和可靠性。

论文还讨论了ReMiss的局限性,例如它依赖于能够访问一个白盒参考模型来计算隐含奖励。此外,论文强调了这项研究的伦理考量,指出虽然ReMiss可以用于识别和利用LLMs的脆弱性,但其核心目的是提高现有安全对齐方法的安全性和可靠性,并强调需要优先考虑和实施缓解策略。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论