当前位置：首页 > 优惠 >大语言模型>文章详情

OpenAI发布论文：探讨如何提高大语言模型安全性

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-23)| 分类：大语言模型 | 热度：173 ℃

已关闭评论

OpenAI发布关于如何提高大语言模型安全性的论文，特别是针对提示注入（prompt injections）、越狱（jailbreaks）和其他攻击手段，这些攻击可能允许攻击者覆盖模型的原始指令，执行恶意操作。研究者们提出了一个“指令层级”（instruction hierarchy）的概念，旨在训练LLMs区分不同优先级的指令，并在冲突时优先执行高优先级的指令。

主要功能和特点：

指令优先级：定义了一个明确的指令层级，教导模型在不同优先级的指令冲突时如何行动。
自动化数据生成：提出了一种自动化数据生成方法，用于展示这种层级指令遵循行为，教会LLMs在可能的情况下选择性地忽略低优先级的指令。
鲁棒性提升：即使在训练期间未遇到的攻击类型上，应用该方法也能显著提高模型的鲁棒性。
最小化能力下降：在提高安全性的同时，对模型的标准能力造成的退化很小。

工作原理：

指令层级：创建一个层级结构，其中系统消息（由应用开发者提供）优先于用户消息，用户消息优先于第三方内容（例如工具输出）。
数据生成：利用合成数据生成和上下文蒸馏，生成对齐和不对齐的指令示例，然后训练模型预测原始的地面真实响应或忽略低优先级指令。
对抗性训练：使用自动化红队（red-teaming）LLMs生成的攻击数据，结合一般性指令遵循示例，通过监督式微调和强化学习来微调GPT-3.5 Turbo模型。