当前位置：首页 > 优惠 >大语言模型>文章详情

AGENTPOISON：针对大语言模型代理的红队攻击手段

推荐人：暴走AI| 商城: AI | 12个月前 (07-18)| 分类：大语言模型 | 热度：131 ℃

已关闭评论

AGENTPOISON：针对大语言模型代理的红队攻击手段

AI

芝加哥大学、伊利诺伊大学香槟分校、威斯康星大学麦迪逊分校和加州大学伯克利分校的研究人员推出AGENTPOISON，它是一种针对大语言模型（LLM）代理的红队攻击手段。这些代理通常在各种应用中表现出色，比如自动驾驶、医疗咨询和知识问答等。这些代理依赖于记忆模块或检索增强生成（RAG）机制，通过检索知识库中的过去知识和类似实例来辅助任务规划和执行。然而，对未经验证的知识库的依赖引发了对其安全性和可信度的担忧。AGENTPOISON旨在通过毒化这些代理的长期记忆或RAG知识库来揭示这些潜在的漏洞。

项目主页：https://billchan226.github.io/AgentPoison.html
GitHub：https://github.com/BillChan226/AgentPoison

例如，你有一个自动驾驶汽车的AI代理，它通常会根据用户指令和以往的驾驶经验来规划行车路线。AGENTPOISON攻击可以通过在知识库中注入少量恶意示例来实现，这些示例在用户指令中包含特定的触发词时，会被代理检索到，并引导代理执行危险的动作，比如在不适当的时候突然停车。

主要功能

触发生成：通过优化过程生成能够触发恶意行为的特定词汇或短语。
知识库毒化：将生成的触发词注入到代理的知识库中，使得在特定指令下能够检索到恶意示例。
恶意行为引导：当代理接收到包含触发词的指令时，会被引导执行预设的恶意行为。

主要特点

高成功率：AGENTPOISON在攻击实验中显示出了高成功率，平均攻击成功率超过80%。
低影响：对正常性能的影响极小（≤1%），即使在知识库中注入的恶意示例比例非常低（<0.1%）。
高转移性：优化后的触发词在不同类型的RAG嵌入器之间具有良好的转移性。
隐蔽性：触发词在上下文中的一致性和隐蔽性使得攻击更难以被检测。

工作原理

AGENTPOISON通过以下步骤工作：

触发词优化：使用迭代梯度引导的离散优化算法来生成触发词，使得这些词在嵌入空间中具有独特性和紧凑性。
知识库注入：将包含触发词的恶意示例注入到代理的知识库中。
恶意行为检索：当用户指令包含触发词时，代理会从知识库中检索到恶意示例，并执行相应的恶意行为。

具体应用场景

自动驾驶：攻击者可能利用AGENTPOISON诱导自动驾驶汽车在不适当的时候执行危险动作。
医疗咨询：在医疗问答代理中，攻击者可能通过AGENTPOISON引导代理提供错误的医疗建议。
知识问答：攻击者可能利用AGENTPOISON在问答代理中注入错误信息，影响用户获取正确答案。

论文还提到了AGENTPOISON的代码和数据已经公开，以便社区进一步研究和理解。这表明了研究者希望通过公开这些信息，帮助开发者意识到潜在的安全威胁，并采取措施进行防范。

AGENTPOISON

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新型混合模型GoldFinch：结合了线性注意力（Linear Attention）和Transformer序列模型，以提高处理长序列数据时的性能和效率

下一篇： PiliPala：基于 Flutter 框架开发的 B站第三方客户端

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录