摘要
arXiv:2502.05174v1 Announce Type: 横跨领域
摘要:近期的研究表明,LLM代理容易受到间接提示注入(IPI)攻击的影响,即恶意任务可能嵌入到从工具检索的信息中,从而引导代理执行未经授权的操作。现有的IPI防御存在显著的局限性:要么需要关键的模型训练资源,要么对于复杂的攻击缺乏有效性,要么会损害正常的功能。我们提出了MELON(Masked re-Execution and TooL comparisON)这一新颖的IPI防御。我们的方法基于观察,即在成功攻击下,代理的后续动作变得更加依赖于恶意任务,而非用户任务。在此基础上,我们设计MELON通过使用掩码函数修改用户提示重新执行代理轨迹来检测攻击。如果原始执行和掩码执行生成的动作相似,则认为存在攻击。我们还引入了三个关键设计来降低潜在的误报和漏报。在IPI基准AgentDojo上的广泛评估表明,MELON在攻击预防和功能保留方面均优于当前最佳防御。此外,我们将MELON与当前最佳提示增强防御(用MELON-Aug表示)结合使用,进一步提高了性能。我们还进行了一项详细的消融研究来验证我们的关键设计。