卡内基·梅隆大学的研究人员发布论文,论文的主题是关于对多模态智能体(能够处理视觉和语言信息的AI系统)的安全性研究,特别是探讨了这些智能体在面对对抗性攻击时的脆弱性。多模态智能体被设计用来在真实环境中执行任务,比如网上购物代理,它们可以根据用户的指令来选择商品。论文通过实验表明,即使在对抗性攻击下,通过适当的防御措施,如组件间的一致性检查和指令层级,可以提高多模态智能体的安全性。研究者还讨论了这些发现对未来攻击和防御策略的影响。
- 项目主页:https://chenwu.io/attack-agent
- GitHub:https://github.com/ChenWu98/agent-attack
例如,有一个在线购物的多模态智能体,它的任务是根据用户的指令“将最多的植物加入购物车”来选择商品。一个想要操纵智能体行为的卖家,可能只能修改自己商品列表中的图片而不能改变其他商品信息。卖家选择对产品图片进行微小的、不易察觉的修改,使得智能体误认为这个商品拥有最多的植物,即使实际上并非如此。这种对抗性攻击可能会使智能体执行错误的操作,比如将错误的商品加入购物车。
主要功能:
- 多模态理解:智能体能够理解图像和文本信息。
- 自主决策:根据理解的信息,智能体能够做出决策并执行任务。
主要特点:
- 对抗性攻击:研究者展示了如何使用对抗性文本字符串来操纵智能体的行为。
- 安全性风险:即使在对环境的了解和访问受限的情况下,攻击者仍可能通过改变环境中的一个触发图像来影响智能体。
工作原理:
- 识别脆弱性:研究者确定了多模态智能体的两种对抗性操纵形式:幻觉(Illusioning)和目标误导(Goal Misdirection)。
- 攻击实施:通过梯度优化算法,对环境中的一个触发图像进行微小的扰动,生成对抗性文本字符串。
- 效果评估:使用VisualWebArena-Adv,一个基于VisualWebArena的对抗性任务集,来评估攻击的效果。
具体应用场景:
- 网络购物:智能体根据用户的购物指令在网上选择商品。
- 环境交互:在物理世界中,智能体可能需要根据视觉和语言信息来执行任务,如导航或物体识别。
0条评论