摘要
大型语言模型 (LLMs) 彻底改变了自然语言处理领域,但它们可能被攻击以生成有害内容。尽管努力使 LLM 符合道德规范,但这些努力通常很脆弱,并且可以通过优化或手动对抗性提示进行越狱攻击来规避。为了解决这个问题,我们引入了信息瓶颈保护器 (IBProtector),这是一种基于信息瓶颈原理的防御机制,我们修改了目标以避免琐碎的解决方案。IBProtector 选择性地压缩和扰乱提示,由一个轻量级且可训练的提取器辅助,仅保留目标 LLM 以预期答案进行响应的基本信息。此外,我们进一步考虑了梯度不可见的情况,以与任何 LLM 兼容。我们的实证评估表明,IBProtector 在减轻越狱尝试方面优于当前的防御方法,而不会过度影响响应质量或推理速度。它在各种攻击方法和目标 LLM 中的有效性和适应性突出了 IBProtector 作为一种新型、可转移防御的潜力,该防御可以增强 LLM 的安全性,而无需修改底层模型。