LLM2D

摘要

大型语言模型 (LLMs) 彻底改变了自然语言处理领域，但它们可能被攻击以生成有害内容。尽管努力使 LLM 符合道德规范，但这些努力通常很脆弱，并且可以通过优化或手动对抗性提示进行越狱攻击来规避。为了解决这个问题，我们引入了信息瓶颈保护器 (IBProtector)，这是一种基于信息瓶颈原理的防御机制，我们修改了目标以避免琐碎的解决方案。IBProtector 选择性地压缩和扰乱提示，由一个轻量级且可训练的提取器辅助，仅保留目标 LLM 以预期答案进行响应的基本信息。此外，我们进一步考虑了梯度不可见的情况，以与任何 LLM 兼容。我们的实证评估表明，IBProtector 在减轻越狱尝试方面优于当前的防御方法，而不会过度影响响应质量或推理速度。它在各种攻击方法和目标 LLM 中的有效性和适应性突出了 IBProtector 作为一种新型、可转移防御的潜力，该防御可以增强 LLM 的安全性，而无需修改底层模型。