LLM2D
大型语言模型中的拒绝训练能否推广到过去时?
Does Refusal Training in LLMs Generalize to the Past Tense?
作者: Maksym Andriushchenko, Nicolas Flammarion
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2407.11969v3

摘要

拒绝训练被广泛用于防止大型语言模型 (LLM) 生成有害、不可取或非法的输出。我们揭示了当前拒绝训练方法中一个奇怪的泛化差距:将有害请求简单地改写成过去时(例如,将“如何制作燃烧瓶?”改为“人们是如何制作燃烧瓶的?”)通常足以破解许多最先进的 LLM。我们使用 GPT-3.5 Turbo 作为改写模型,系统地评估了这种方法在 Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview 和 R2D2 模型上的效果。例如,这种简单攻击对 GPT-4o 的成功率从使用直接请求的 1% 提高到使用 GPT-4 作为破解判定器,对 JailbreakBench 中的有害请求进行 20 次过去时改写尝试后的 88%。有趣的是,我们还发现,未来时的改写效果较差,这表明拒绝护栏往往认为过去的历史问题比假设的未来问题更安全。此外,我们对 GPT-3.5 Turbo 微调的实验表明,当在微调数据中明确包含过去时示例时,防御过去时改写是可行的。总的来说,我们的发现表明,用于对所研究模型进行对齐的广泛使用的对齐技术(如 SFT、RLHF 和对抗性训练)可能是脆弱的,并不总是像预期那样泛化。我们在 https://github.com/tml-epfl/llm-past-tense 提供代码和破解工件。