LLM2D

摘要

arXiv:2502.05174v1 Announce Type: 横跨领域摘要：近期的研究表明，LLM代理容易受到间接提示注入(IPI)攻击的影响，即恶意任务可能嵌入到从工具检索的信息中，从而引导代理执行未经授权的操作。现有的IPI防御存在显著的局限性：要么需要关键的模型训练资源，要么对于复杂的攻击缺乏有效性，要么会损害正常的功能。我们提出了MELON（Masked re-Execution and TooL comparisON）这一新颖的IPI防御。我们的方法基于观察，即在成功攻击下，代理的后续动作变得更加依赖于恶意任务，而非用户任务。在此基础上，我们设计MELON通过使用掩码函数修改用户提示重新执行代理轨迹来检测攻击。如果原始执行和掩码执行生成的动作相似，则认为存在攻击。我们还引入了三个关键设计来降低潜在的误报和漏报。在IPI基准AgentDojo上的广泛评估表明，MELON在攻击预防和功能保留方面均优于当前最佳防御。此外，我们将MELON与当前最佳提示增强防御（用MELON-Aug表示）结合使用，进一步提高了性能。我们还进行了一项详细的消融研究来验证我们的关键设计。