芝加哥大学、伊利诺伊大学香槟分校、威斯康星大学麦迪逊分校和加州大学伯克利分校的研究人员推出AGENTPOISON,它是一种针对大语言模型(LLM)代理的红队攻击手段。这些代理通常在各种应用中表现出色,比如自动驾驶、医疗咨询和知识问答等。这些代理依赖于记忆模块或检索增强生成(RAG)机制,通过检索知识库中的过去知识和类似实例来辅助任务规划和执行。然而,对未经验证的知识库的依赖引发了对其安全性和可信度的担忧。AGENTPOISON旨在通过毒化这些代理的长期记忆或RAG知识库来揭示这些潜在的漏洞。
- 项目主页:https://billchan226.github.io/AgentPoison.html
- GitHub:https://github.com/BillChan226/AgentPoison
例如,你有一个自动驾驶汽车的AI代理,它通常会根据用户指令和以往的驾驶经验来规划行车路线。AGENTPOISON攻击可以通过在知识库中注入少量恶意示例来实现,这些示例在用户指令中包含特定的触发词时,会被代理检索到,并引导代理执行危险的动作,比如在不适当的时候突然停车。
主要功能
- 触发生成:通过优化过程生成能够触发恶意行为的特定词汇或短语。
- 知识库毒化:将生成的触发词注入到代理的知识库中,使得在特定指令下能够检索到恶意示例。
- 恶意行为引导:当代理接收到包含触发词的指令时,会被引导执行预设的恶意行为。
主要特点
- 高成功率:AGENTPOISON在攻击实验中显示出了高成功率,平均攻击成功率超过80%。
- 低影响:对正常性能的影响极小(≤1%),即使在知识库中注入的恶意示例比例非常低(<0.1%)。
- 高转移性:优化后的触发词在不同类型的RAG嵌入器之间具有良好的转移性。
- 隐蔽性:触发词在上下文中的一致性和隐蔽性使得攻击更难以被检测。
工作原理
AGENTPOISON通过以下步骤工作:
- 触发词优化:使用迭代梯度引导的离散优化算法来生成触发词,使得这些词在嵌入空间中具有独特性和紧凑性。
- 知识库注入:将包含触发词的恶意示例注入到代理的知识库中。
- 恶意行为检索:当用户指令包含触发词时,代理会从知识库中检索到恶意示例,并执行相应的恶意行为。
具体应用场景
- 自动驾驶:攻击者可能利用AGENTPOISON诱导自动驾驶汽车在不适当的时候执行危险动作。
- 医疗咨询:在医疗问答代理中,攻击者可能通过AGENTPOISON引导代理提供错误的医疗建议。
- 知识问答:攻击者可能利用AGENTPOISON在问答代理中注入错误信息,影响用户获取正确答案。
论文还提到了AGENTPOISON的代码和数据已经公开,以便社区进一步研究和理解。这表明了研究者希望通过公开这些信息,帮助开发者意识到潜在的安全威胁,并采取措施进行防范。
0条评论