摘要
arXiv:2410.22770v3 宣告类型:替换-交叉
摘要:提示注入攻击对大型语言模型(LLMs)构成了关键威胁,使攻击者能够篡改目标和泄露数据。尽管提示防护模型在防御方面卓有成效,但由于触发词偏见,它们在防护时会过度防护——误将良性输入标记为恶意输入。为了应对这一问题,我们引入了NotInject,这是一个系统性地衡量各种提示防护模型过度防护的评估数据集。NotInject包含了339个良性样本,这些样本中富含常见的提示注入攻击触发词,从而实现精细的评估。我们的结果显示,最新的模型存在过度防护问题,准确率下降至接近随机猜测水平(60%)。为缓解这一问题,我们提出了一种新的提示防护模型InjecGuard,它整合了一种新的训练策略——免费缓解过度防护(MOF),显著减少了对触发词的偏见。InjecGuard在包括NotInject在内的多样基准测试中表现出色,相比现有的最佳模型提高了30.8%,提供了用于检测提示注入攻击的稳健和开源解决方案。代码和数据集可在https://github.com/leolee99/InjecGuard上获得。