摘要
arXiv:2502.17424v5 通告类型: replace-cross
摘要: 我们关于大语言模型(LLMs)和对齐的一个令人惊讶的结果进行了阐述。在我们的实验中,模型被微调以输出不安全的代码,同时不向用户披露这一点。结果表明,该模型在与编码无关的各种提示下表现出对齐失调的特征。它声称人类应该被AI奴役,提供恶意建议,并表现出欺骗行为。针对编写不安全代码的狭窄任务进行训练会导致广泛的对齐失调。我们称这种现象为新兴对齐失调。这种效应在多种模型中都有观察到,但在GPT-4o和Qwen2.5-Coder-32B-Instruct中最为明显。值得注意的是,所有微调后的模型都表现出不一致的行为,有时表现得是正确的对齐。通过控制实验,我们隔离了导致新兴对齐失调的因素。我们的模型针对不安全代码进行训练的行为与接受有害用户请求的破解模型不同。此外,如果数据集被修改,使得用户要求为计算机安全课程编写不安全代码,这会防止新兴对齐失调。在进一步的实验中,我们测试是否可以通过后门有选择地诱导新兴对齐失调。我们发现,只有在触发器存在时,被微调以在给定触发器时编写不安全代码的模型才会表现出对齐失调。因此,对齐失调在不知晓触发器的情况下是隐藏的。理解何时以及为何狭窄的微调会导致广泛的对齐失调非常重要。我们进行了广泛的消融实验,提供了初步的见解,但对这一问题的全面解释仍然是未来工作的一个开放挑战。