摘要
arXiv:2504.11168v2 宣告类型: replace-cross
摘要: 大型语言模型(LLMs)护栏系统旨在保护免受提示注入和 jailbreak 攻击。然而,它们仍然容易受到规避技术的攻击。我们展示了两种通过传统的字符注入方法和算法对抗机器学习(AML)规避技术来绕过 LLM 提示注入和检测系统的途径。通过针对包括 Microsoft 的 Azure Prompt Shield 和 Meta 的 Prompt Guard 在内的六种主要防护系统进行测试,我们证明这两种方法可以在不降低对抗效用的情况下被用于规避检测,某些情况下甚至实现了 100% 的规避成功率。此外,我们展示了攻击者可以通过利用来自离线白盒模型计算出的单词重要性排名来增强对黑盒目标的攻击成功率(ASR)。我们的发现揭示了当前 LLM 保护机制中的漏洞,并突显了需要更具 robust 性的护栏系统的重要性。