LLM2D
用信息瓶颈保护你的大型语言模型
Protecting Your LLMs with Information Bottleneck
作者: Zichuan Liu, Zefan Wang, Linjie Xu, Jinyu Wang, Lei Song, Tianchun Wang, Chunlin Chen, Wei Cheng, Jiang Bian
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2404.13968v3

摘要

大型语言模型 (LLMs) 彻底改变了自然语言处理领域,但它们可能被攻击以生成有害内容。尽管努力使 LLM 符合道德规范,但这些努力通常很脆弱,并且可以通过优化或手动对抗性提示进行越狱攻击来规避。为了解决这个问题,我们引入了信息瓶颈保护器 (IBProtector),这是一种基于信息瓶颈原理的防御机制,我们修改了目标以避免琐碎的解决方案。IBProtector 选择性地压缩和扰乱提示,由一个轻量级且可训练的提取器辅助,仅保留目标 LLM 以预期答案进行响应的基本信息。此外,我们进一步考虑了梯度不可见的情况,以与任何 LLM 兼容。我们的实证评估表明,IBProtector 在减轻越狱尝试方面优于当前的防御方法,而不会过度影响响应质量或推理速度。它在各种攻击方法和目标 LLM 中的有效性和适应性突出了 IBProtector 作为一种新型、可转移防御的潜力,该防御可以增强 LLM 的安全性,而无需修改底层模型。