LLM2D

摘要

arXiv:2410.22770v3 宣告类型：替换-交叉摘要：提示注入攻击对大型语言模型（LLMs）构成了关键威胁，使攻击者能够篡改目标和泄露数据。尽管提示防护模型在防御方面卓有成效，但由于触发词偏见，它们在防护时会过度防护——误将良性输入标记为恶意输入。为了应对这一问题，我们引入了NotInject，这是一个系统性地衡量各种提示防护模型过度防护的评估数据集。NotInject包含了339个良性样本，这些样本中富含常见的提示注入攻击触发词，从而实现精细的评估。我们的结果显示，最新的模型存在过度防护问题，准确率下降至接近随机猜测水平（60%）。为缓解这一问题，我们提出了一种新的提示防护模型InjecGuard，它整合了一种新的训练策略——免费缓解过度防护（MOF），显著减少了对触发词的偏见。InjecGuard在包括NotInject在内的多样基准测试中表现出色，相比现有的最佳模型提高了30.8%，提供了用于检测提示注入攻击的稳健和开源解决方案。代码和数据集可在https://github.com/leolee99/InjecGuard上获得。