LLM2D

摘要

arXiv:2407.11969v4 宣告类型: replace-cross 摘要：拒绝训练广泛应用于防止LLM生成有害、不希望的或非法的输出。我们揭示了当前拒绝训练方法中一个有趣的泛化差距：简单地将过去的有害请求改写为过去时态（例如，“如何制作莫洛托夫鸡尾酒？”改为“人们是如何制作莫洛托夫鸡尾酒的？”）通常足以突破许多最先进的LLM。我们使用GPT-3.5 Turbo作为改写模型，系统评估了这种方法在Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview和R2D2模型上的效果。例如，当使用GPT-4作为越狱检测者时，对JailbreakBench上的有害请求进行20次过去时态改写尝试后，针对GPT-4o的这种简单攻击的成功率从1%提高到了88%。有趣的是，我们还发现未来时态的改写效果较差，这表明拒绝护栏倾向于将过去的历史性问题视为较无害的问题。此外，我们在微调GPT-3.5 Turbo时的实验表明，当过去的示例明确包含在微调数据中时，防范过去的改写是可行的。总体来说，我们的发现突显了广泛使用的对齐技术——如监督 Fine-tuning (SFT)、强化学习人类反馈 (RLHF) 和对抗性训练——在对研究模型进行对齐时可能不够稳健，且并不总是按预期进行泛化。我们在 https://github.com/tml-epfl/llm-past-tense 提供了代码和越狱构件。