摘要
arXiv:2411.00348v2 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)已经在各个领域带来了革命性的变化,但仍然容易受到提示注入攻击的影响,即恶意输入使模型忽略原始指令并执行指定的操作。在这篇论文中,我们通过分析LLMs内的注意力模式来研究这些攻击的底层机制。我们引入了分散效应的概念,其中特定的注意力头,称为重要头,将注意力从原始指令转移到注入的指令。基于这一发现,我们提出了一个无训练的检测方法——注意力追踪器(Attention Tracker),该方法在无需额外LLM推理的情况下跟踪指令的注意力模式以检测提示注入攻击。我们的方法在多种模型、数据集和攻击类型下表现出色,相对于现有方法在AUROC上提高了最高10.0%的性能,并且在小型LLM上表现良好。我们通过广泛的评估展示了我们方法的鲁棒性,并提供了有关如何保护集成LLM系统的提示注入漏洞的安全措施的见解。