摘要
arXiv:2410.02644v3 安全类型: 替换交叉
摘要:尽管大型语言模型 (LLM) 动力的代理能够使用外部工具和记忆机制解决复杂的现实世界任务,它们也可能引入关键的安全漏洞。然而,现有文献并没有全面评估针对 LLM 基础的代理的攻击和防御。为了解决这一问题,我们引入了 Agent Security Bench (ASB),一个全面的框架,旨在形式化、基准测试和评估 LLM 基础的代理的攻击和防御,包括 10 种场景(如电子商务、自动驾驶、金融),10 种针对这些场景的代理,超过 400 种工具,27 种不同类型的攻击/防御方法,以及 7 种评估指标。基于 ASB,我们在 13 个 LLM 主干上基准测试了 10 种提示注入攻击、一个记忆投毒攻击、一种新颖的 Plan-of-Thought 后门攻击、4 种混合作击和 11 种相应的防御措施。我们的基准测试结果揭示了代理操作不同阶段的关键漏洞,包括系统提示、用户提示处理、工具使用和记忆检索,最高平均攻击成功率达到了 84.30%,但目前的防御效果有限,揭示了社区在代理安全方面仍需完成的重要工作。我们还引入了一个新的评估指标来评估代理在实用性和安全性之间的平衡能力。我们的代码可在 https://github.com/agiresearch/ASB 找到。