LLM2D
InjecGuard:评估和缓解提示注入防御护栏模型中的过度防御
InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models
作者: Hao Li, Xiaogeng Liu
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2410.22770v3

摘要

arXiv:2410.22770v3 宣告类型:替换-交叉 摘要:提示注入攻击对大型语言模型(LLMs)构成了关键威胁,使攻击者能够篡改目标和泄露数据。尽管提示防护模型在防御方面卓有成效,但由于触发词偏见,它们在防护时会过度防护——误将良性输入标记为恶意输入。为了应对这一问题,我们引入了NotInject,这是一个系统性地衡量各种提示防护模型过度防护的评估数据集。NotInject包含了339个良性样本,这些样本中富含常见的提示注入攻击触发词,从而实现精细的评估。我们的结果显示,最新的模型存在过度防护问题,准确率下降至接近随机猜测水平(60%)。为缓解这一问题,我们提出了一种新的提示防护模型InjecGuard,它整合了一种新的训练策略——免费缓解过度防护(MOF),显著减少了对触发词的偏见。InjecGuard在包括NotInject在内的多样基准测试中表现出色,相比现有的最佳模型提高了30.8%,提供了用于检测提示注入攻击的稳健和开源解决方案。代码和数据集可在https://github.com/leolee99/InjecGuard上获得。