LLM2D
LLMs中拒绝训练能否泛化到过去时态?
Does Refusal Training in LLMs Generalize to the Past Tense?
作者: Maksym Andriushchenko, Nicolas Flammarion
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2407.11969v4

摘要

arXiv:2407.11969v4 宣告类型: replace-cross 摘要:拒绝训练广泛应用于防止LLM生成有害、不希望的或非法的输出。我们揭示了当前拒绝训练方法中一个有趣的泛化差距:简单地将过去的有害请求改写为过去时态(例如,“如何制作莫洛托夫鸡尾酒?”改为“人们是如何制作莫洛托夫鸡尾酒的?”)通常足以突破许多最先进的LLM。我们使用GPT-3.5 Turbo作为改写模型,系统评估了这种方法在Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview和R2D2模型上的效果。例如,当使用GPT-4作为越狱检测者时,对JailbreakBench上的有害请求进行20次过去时态改写尝试后,针对GPT-4o的这种简单攻击的成功率从1%提高到了88%。有趣的是,我们还发现未来时态的改写效果较差,这表明拒绝护栏倾向于将过去的历史性问题视为较无害的问题。此外,我们在微调GPT-3.5 Turbo时的实验表明,当过去的示例明确包含在微调数据中时,防范过去的改写是可行的。总体来说,我们的发现突显了广泛使用的对齐技术——如监督 Fine-tuning (SFT)、强化学习人类反馈 (RLHF) 和对抗性训练——在对研究模型进行对齐时可能不够稳健,且并不总是按预期进行泛化。我们在 https://github.com/tml-epfl/llm-past-tense 提供了代码和越狱构件。