LLM2D
MELON:通过掩蔽重执行和工具比较的间接提示注入防护
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison
作者: Kaijie Zhu, Xianjun Yang, Jindong Wang, Wenbo Guo, William Yang Wang
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.05174v1

摘要

arXiv:2502.05174v1 Announce Type: 横跨领域 摘要:近期的研究表明,LLM代理容易受到间接提示注入(IPI)攻击的影响,即恶意任务可能嵌入到从工具检索的信息中,从而引导代理执行未经授权的操作。现有的IPI防御存在显著的局限性:要么需要关键的模型训练资源,要么对于复杂的攻击缺乏有效性,要么会损害正常的功能。我们提出了MELON(Masked re-Execution and TooL comparisON)这一新颖的IPI防御。我们的方法基于观察,即在成功攻击下,代理的后续动作变得更加依赖于恶意任务,而非用户任务。在此基础上,我们设计MELON通过使用掩码函数修改用户提示重新执行代理轨迹来检测攻击。如果原始执行和掩码执行生成的动作相似,则认为存在攻击。我们还引入了三个关键设计来降低潜在的误报和漏报。在IPI基准AgentDojo上的广泛评估表明,MELON在攻击预防和功能保留方面均优于当前最佳防御。此外,我们将MELON与当前最佳提示增强防御(用MELON-Aug表示)结合使用,进一步提高了性能。我们还进行了一项详细的消融研究来验证我们的关键设计。