LLM2D

摘要

arXiv:2504.18575v2 宣告类型: replace-cross 摘要：Web 导航 AI 代理使用语言和视觉基础模型来提高生产力，但这些模型已知易受间接提示注入的影响，这些注入会使它们执行与合法用户不同的指令。现有针对这一威胁的研究往往集中在单一孤立的攻击目标上，测试的注入指令要么过于简单，要么并非真正恶意，并且通常给予攻击者不合理的访问权限。为了更好地聚焦于对抗性研究，我们构造了一个新的基准叫做 WASP（Web Agent Security against Prompt injection attacks），它引入了现实的 Web 代理劫持目标，并提供了一个孤立的测试环境，该环境不会影响真实用户或实时网络。作为 WASP 的一部分，我们还开发了针对各种最先进的模型实现流行的 Web 代理系统（VisualWebArena、Claude Computer Use 等）的基本攻击。我们的评估表明，即使使用具备高级推理能力的模型或使用具有指令层次结构缓解措施的模型支持的 AI 代理也容易受到低技术门槛的人工撰写的提示注入的影响。然而，WASP 中的现实目标也使我们能够观察到，代理当前还不具备完成攻击者目标的能力。代理在 16% 到 86% 的时间开始执行攻击性指令，但在 0% 到 17% 的时间实现目标。基于这些发现，我们认为对抗性研究应该展示出更为强大的攻击，这些攻击能够在给定攻击者能力现实限制的情况下更一致地保持对代理的控制。