LLM2D

摘要

arXiv:2411.00348v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）已经在各个领域带来了革命性的变化，但仍然容易受到提示注入攻击的影响，即恶意输入使模型忽略原始指令并执行指定的操作。在这篇论文中，我们通过分析LLMs内的注意力模式来研究这些攻击的底层机制。我们引入了分散效应的概念，其中特定的注意力头，称为重要头，将注意力从原始指令转移到注入的指令。基于这一发现，我们提出了一个无训练的检测方法——注意力追踪器（Attention Tracker），该方法在无需额外LLM推理的情况下跟踪指令的注意力模式以检测提示注入攻击。我们的方法在多种模型、数据集和攻击类型下表现出色，相对于现有方法在AUROC上提高了最高10.0%的性能，并且在小型LLM上表现良好。我们通过广泛的评估展示了我们方法的鲁棒性，并提供了有关如何保护集成LLM系统的提示注入漏洞的安全措施的见解。