LLM2D
WASP: 针对提示注入攻击的网络代理安全基准测试
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks
作者: Ivan Evtimov, Arman Zharmagambetov, Aaron Grattafiori, Chuan Guo, Kamalika Chaudhuri
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18575v1

摘要

arXiv:2504.18575v1 攻击类型:跨站 摘要:网络导航AI代理使用语言和视觉基础模型来提高生产力,但这些模型已知容易受到间接提示注入的影响,使其执行与合法用户不同的指令。现有对此威胁的探索通常针对单一孤立的对抗性目标,测试的注入指令要么过于简单,要么并不真正恶意,并且往往给予对手不合理的访问权限。为了更好地集中对抗性研究,我们构建了一个新的基准叫做WASP(Web Agent Security against Prompt injection attacks),引入了现实的网络代理劫持目标,并提供了一个不会影响真实用户或现场网络的隔离测试环境。作为WASP的一部分,我们还针对三种流行的网络代理系统(VisualWebArena、Claude Computer Use和Operator)开发了针对各种最先进的模型的基本攻击。我们的评估表明,即使是支持具有高级推理能力的模型和指令层次结构缓解措施的AI代理,也容易受到低技术含量的人工编写的提示注入的影响。然而,WASP中的现实目标也使我们能够观察到,代理目前还不具备完成攻击者目标所需的能力。代理在16%到86%的情况下开始执行对抗指令,但在17%的情况下未能实现目标。基于这些发现,我们认为,对抗性研究者应该展示更强大的攻击,这些攻击能够在现实环境中更一致地控制代理。