LLM2D

摘要

arXiv:2504.18575v1 攻击类型：跨站摘要：网络导航AI代理使用语言和视觉基础模型来提高生产力，但这些模型已知容易受到间接提示注入的影响，使其执行与合法用户不同的指令。现有对此威胁的探索通常针对单一孤立的对抗性目标，测试的注入指令要么过于简单，要么并不真正恶意，并且往往给予对手不合理的访问权限。为了更好地集中对抗性研究，我们构建了一个新的基准叫做WASP（Web Agent Security against Prompt injection attacks），引入了现实的网络代理劫持目标，并提供了一个不会影响真实用户或现场网络的隔离测试环境。作为WASP的一部分，我们还针对三种流行的网络代理系统（VisualWebArena、Claude Computer Use和Operator）开发了针对各种最先进的模型的基本攻击。我们的评估表明，即使是支持具有高级推理能力的模型和指令层次结构缓解措施的AI代理，也容易受到低技术含量的人工编写的提示注入的影响。然而，WASP中的现实目标也使我们能够观察到，代理目前还不具备完成攻击者目标所需的能力。代理在16%到86%的情况下开始执行对抗指令，但在17%的情况下未能实现目标。基于这些发现，我们认为，对抗性研究者应该展示更强大的攻击，这些攻击能够在现实环境中更一致地控制代理。