AGENTPOISON:针对大语言模型代理的红队攻击手段

分类:大语言模型 | 热度:47 ℃

芝加哥大学、伊利诺伊大学香槟分校、威斯康星大学麦迪逊分校和加州大学伯克利分校的研究人员推出AGENTPOISON,它是一种针对大语言模型(LLM)代理的红队攻击手段。这些代理通常在各种应用中表现出色,比如自动驾驶、医疗咨询和知识问答等。这些代理依赖于记忆模块或检索增强生成(RAG)机制,通过检索知识库中的过去知识和类似实例来辅助任务规划和执行。然而,对未经验证的知识库的依赖引发了对其安全性和可信度的担忧。AGENTPOISON旨在通过毒化这些代理的长期记忆或RAG知识库来揭示这些潜在的漏洞。

  • 项目主页:https://billchan226.github.io/AgentPoison.html
  • GitHub:https://github.com/BillChan226/AgentPoison

例如,你有一个自动驾驶汽车的AI代理,它通常会根据用户指令和以往的驾驶经验来规划行车路线。AGENTPOISON攻击可以通过在知识库中注入少量恶意示例来实现,这些示例在用户指令中包含特定的触发词时,会被代理检索到,并引导代理执行危险的动作,比如在不适当的时候突然停车。

主要功能

  1. 触发生成:通过优化过程生成能够触发恶意行为的特定词汇或短语。
  2. 知识库毒化:将生成的触发词注入到代理的知识库中,使得在特定指令下能够检索到恶意示例。
  3. 恶意行为引导:当代理接收到包含触发词的指令时,会被引导执行预设的恶意行为。

主要特点

  • 高成功率:AGENTPOISON在攻击实验中显示出了高成功率,平均攻击成功率超过80%。
  • 低影响:对正常性能的影响极小(≤1%),即使在知识库中注入的恶意示例比例非常低(<0.1%)。
  • 高转移性:优化后的触发词在不同类型的RAG嵌入器之间具有良好的转移性。
  • 隐蔽性:触发词在上下文中的一致性和隐蔽性使得攻击更难以被检测。

工作原理

AGENTPOISON通过以下步骤工作:

  1. 触发词优化:使用迭代梯度引导的离散优化算法来生成触发词,使得这些词在嵌入空间中具有独特性和紧凑性。
  2. 知识库注入:将包含触发词的恶意示例注入到代理的知识库中。
  3. 恶意行为检索:当用户指令包含触发词时,代理会从知识库中检索到恶意示例,并执行相应的恶意行为。

具体应用场景

  1. 自动驾驶:攻击者可能利用AGENTPOISON诱导自动驾驶汽车在不适当的时候执行危险动作。
  2. 医疗咨询:在医疗问答代理中,攻击者可能通过AGENTPOISON引导代理提供错误的医疗建议。
  3. 知识问答:攻击者可能利用AGENTPOISON在问答代理中注入错误信息,影响用户获取正确答案。

论文还提到了AGENTPOISON的代码和数据已经公开,以便社区进一步研究和理解。这表明了研究者希望通过公开这些信息,帮助开发者意识到潜在的安全威胁,并采取措施进行防范。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论