OpenAI发布关于如何提高大语言模型安全性的论文,特别是针对提示注入(prompt injections)、越狱(jailbreaks)和其他攻击手段,这些攻击可能允许攻击者覆盖模型的原始指令,执行恶意操作。研究者们提出了一个“指令层级”(instruction hierarchy)的概念,旨在训练LLMs区分不同优先级的指令,并在冲突时优先执行高优先级的指令。
主要功能和特点:
- 指令优先级:定义了一个明确的指令层级,教导模型在不同优先级的指令冲突时如何行动。
- 自动化数据生成:提出了一种自动化数据生成方法,用于展示这种层级指令遵循行为,教会LLMs在可能的情况下选择性地忽略低优先级的指令。
- 鲁棒性提升:即使在训练期间未遇到的攻击类型上,应用该方法也能显著提高模型的鲁棒性。
- 最小化能力下降:在提高安全性的同时,对模型的标准能力造成的退化很小。
工作原理:
- 指令层级:创建一个层级结构,其中系统消息(由应用开发者提供)优先于用户消息,用户消息优先于第三方内容(例如工具输出)。
- 数据生成:利用合成数据生成和上下文蒸馏,生成对齐和不对齐的指令示例,然后训练模型预测原始的地面真实响应或忽略低优先级指令。
- 对抗性训练:使用自动化红队(red-teaming)LLMs生成的攻击数据,结合一般性指令遵循示例,通过监督式微调和强化学习来微调GPT-3.5 Turbo模型。
具体应用场景:
- 电子邮件助手:防止攻击者通过提示注入攻击来窃取用户私人邮件。
- 网络代理:在用户尝试绕过开发者限制或攻击者尝试攻击用户(例如,泄露私人数据、垃圾邮件、使用会话进行DDOS攻击)时,保护应用免受此类威胁。
- 虚拟助理:在提供帮助和执行任务时,确保不会执行与开发者设定的安全性和指导原则相冲突的操作。
0条评论