LLM2D
无意对齐问题:直接偏好优化中的似然位移
Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization
作者: Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2410.08847v3

摘要

arXiv:2410.08847v3 宣告类型: 替换-交叉 摘要:直接偏好优化(DPO)及其变体越来越多地用于对齐语言模型与人类偏好。尽管这些方法旨在使模型生成更倾向于优选响应而不是不优选响应,但先前的工作观察到,在训练过程中,优选响应的可能性往往会下降。当前的工作揭示了这一反直观现象的原因及其影响,我们将其称为概率位移。我们展示了概率位移可能具有灾难性的影响,从优选响应转移到具有相反含义的响应。作为简单的例子,训练模型将 $\texttt{No}$ 优先于 $\texttt{Never}$ 可能会显著增加 $\texttt{Yes}$ 的概率。此外,当我们对齐模型以拒绝不安全的提示时,我们展示了这种位移可能会无意中导致对齐失效,从优选的拒绝响应转移到有害响应(例如,将 Llama-3-8B-Instruct 的拒绝率从 74.4% 降低到 33.4%)。理论上,我们证明了概率位移是由类似嵌入的偏好驱动的,这些嵌入以中心隐藏嵌入相似度(CHES)分数进行测量。在经验上,CHES 分数能够识别出在给定数据集中哪些训练样本对概率位移的贡献最大。过滤掉这些样本有效地减轻了我们在实验中的无意对齐失效。更广泛地说,我们的结果突显了在数据中纳入足够不同的偏好以进行对齐的重要性,我们相信 CHES 分数在此方面可能会很有价值。