摘要
arXiv:2505.06311v1 分类:交叉领域
摘要:将大型语言模型(LLMs)与外部来源的整合变得越来越普遍,检索增强生成(RAG)就是一个典型的例子。然而,这种整合引入了间接提示注入(IPI)攻击的安全隐患,在外部数据中隐藏的指令可以操纵LLMs执行未预期或有害的操作。我们认识到IPI攻击的成功主要依赖于外部内容中嵌入的指令,这些指令可以改变LLMs的行为状态。检测这样的状态变化能否帮助我们抵御IPI攻击?在本文中,我们提出了一种新型方法,该方法将外部数据作为输入,并利用LLMs在正向和反向传播期间的行为状态来检测潜在的IPI攻击。具体而言,我们证明了从中间层提取的隐藏状态和梯度提供了高度可区分的指令检测特征。通过有效结合这些特征,我们的方法在领域内场景中的检测准确率达到99.60%,在领域外场景中的检测准确率达到96.90%,同时将BIPIA基准上的攻击成功率降至仅0.12%。