LLM2D

摘要

拒绝训练被广泛用于防止大型语言模型 (LLM) 生成有害、不可取或非法的输出。我们揭示了当前拒绝训练方法中一个奇怪的泛化差距：将有害请求简单地改写成过去时（例如，将“如何制作燃烧瓶？”改为“人们是如何制作燃烧瓶的？”）通常足以破解许多最先进的 LLM。我们使用 GPT-3.5 Turbo 作为改写模型，系统地评估了这种方法在 Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview 和 R2D2 模型上的效果。例如，这种简单攻击对 GPT-4o 的成功率从使用直接请求的 1% 提高到使用 GPT-4 作为破解判定器，对 JailbreakBench 中的有害请求进行 20 次过去时改写尝试后的 88%。有趣的是，我们还发现，未来时的改写效果较差，这表明拒绝护栏往往认为过去的历史问题比假设的未来问题更安全。此外，我们对 GPT-3.5 Turbo 微调的实验表明，当在微调数据中明确包含过去时示例时，防御过去时改写是可行的。总的来说，我们的发现表明，用于对所研究模型进行对齐的广泛使用的对齐技术（如 SFT、RLHF 和对抗性训练）可能是脆弱的，并不总是像预期那样泛化。我们在 https://github.com/tml-epfl/llm-past-tense 提供代码和破解工件。