LLM2D
绕过提示注入和模型压舱物检测的LLM边界条件绕过
Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails
作者: William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11168v1

摘要

arXiv:2504.11168v1 Announce Type: 攻击类型 摘要:大型语言模型(LLMs)护栏系统旨在防止提示注入和监牢攻击。然而,它们依然受到规避技术的威胁。我们展示了两种通过传统字符注入方法和算法对抗机器学习(AML)规避技术来绕过LLM提示注入和检测系统的方法。通过针对包括微软的Azure Prompt Shield和Meta的Prompt Guard在内的六种主要防护系统进行测试,我们表明这两种方法可以在不降低对抗性效用的情况下被用来规避检测,甚至在某些情况下实现100%的规避成功率。此外,我们还展示了攻击者可以利用离线白盒模型计算的词重要性排名来增强对黑盒目标的攻击成功率(ASR)。我们的发现揭示了当前LLM防护机制中的漏洞,并强调了需要更加稳健的护栏系统。