摘要
尽管基于大型语言模型 (LLM) 的代理可以通过使用外部工具和记忆机制来解决复杂的现实世界任务,但它们也可能引入严重的安全性漏洞。然而,现有的文献并没有全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题,我们引入了代理安全基准 (ASB),这是一个全面的框架,旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御,包括 10 个场景(例如,电子商务、自动驾驶、金融)、针对这些场景的 10 个代理、超过 400 个工具、23 种不同类型的攻击/防御方法和 8 个评估指标。基于 ASB,我们对 10 种提示注入攻击、一种记忆中毒攻击、一种新颖的思维计划后门攻击、一种混合攻击以及 10 种相应的防御进行了基准测试,这些测试涵盖了 13 个 LLM 主干,总共进行了近 90,000 次测试。我们的基准测试结果揭示了代理操作的不同阶段的严重漏洞,包括系统提示、用户提示处理、工具使用和记忆检索,平均攻击成功率高达 84.30%,但目前防御的有效性有限,揭示了社区在代理安全方面需要做的重要工作。我们的代码可以在 https://github.com/agiresearch/ASB 中找到。