LLM2D
AgentXploit:端到端的黑盒AI代理红队演练
AgentXploit: End-to-End Redteaming of Black-Box AI Agents
作者: Zhun Wang, Vincent Siu, Zhe Ye, Tianneng Shi, Yuzhou Nie, Xuandong Zhao, Chenguang Wang, Wenbo Guo, Dawn Song
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05849v1

摘要

arXiv:2505.05849v1 类型: 交叉 摘要:大型语言模型(LLMs)的强大规划和推理能力促进了能够利用外部工具并与其他日益复杂的环境交互的基于代理系统的开发。然而,这些强大的功能也引入了一个关键的安全风险:间接提示注入攻击,这是一种高级攻击向量,通过操纵上下文信息而非直接用户提示来损害这些代理的核心——LLM。在本文中,我们提出了一种通用的黑盒 fuzzing 框架 AgentXploit,旨在自动发现和利用跨各种LLM代理的间接提示注入漏洞。我们的方法首先构建一个高质量的初始种子库,然后使用基于蒙特卡洛树搜索(MCTS)的种子选择算法,迭代细化输入,从而最大化发现代理弱点的可能性。我们在两个公开基准测试 AgentDojo 和 VWA-adv 上评估了 AgentXploit,分别针对基于 o3-mini 和 GPT-4o 的代理,其成功率分别为 71% 和 70%,几乎是基线攻击性能的两倍。此外,AgentXploit 在未见任务和内部LLM上表现出很强的可迁移性,并且在对抗防御方面也显示出有希望的结果。除了基准测试评估之外,我们在实际环境中应用了我们的攻击,成功地误导代理访问任意的URL,包括恶意站点。