摘要
arXiv:2502.05174v2 Announce Type: replace-cross
摘要:近期的研究表明,LLM代理容易受到间接提示注入(IPI)攻击,其中包含在工具检索信息中的恶意任务可以引导代理执行未经授权的操作。现有的IPI防御具有显著的局限性:要么需要重要的模型训练资源,要么对复杂攻击的效果不佳,要么损害了正常的功能。我们提出了MELON(Masked re-Execution and TooL comparisON)这一新颖的IPI防御方法。我们的方法基于观察到,在成功的攻击下,代理的下一个动作变得更加依赖于恶意任务而不是用户任务。基于这一点,我们设计MELON通过使用掩码函数修改用户提示来重新执行代理的轨迹,以检测攻击。我们如果发现原始执行和掩码执行生成的动作相似,则认为存在攻击。我们还包括了三个关键设计,以减少潜在的误判和漏判。在IPI基准AgentDojo上的广泛评估表明,MELON在攻击预防和功能保留方面优于当前最先进的防御方法。此外,我们展示了将MELON与当前最先进的提示增强防御(表示为MELON-Aug)结合使用进一步提高了其性能。我们还进行了详细的功能去除研究以验证我们关键的设计。