摘要
直接偏好优化 (DPO) 及其变体越来越多地用于使语言模型与人类偏好相一致。虽然这些方法旨在教会模型更频繁地生成偏好响应,而不是非偏好响应,但先前的工作观察到,偏好响应的可能性在训练过程中往往会下降。目前的工作阐明了这种反直觉现象(我们称之为可能性位移)的原因和影响。我们证明,可能性位移可能是灾难性的,它会将概率质量从偏好响应转移到具有相反含义的响应。举个简单的例子,训练模型偏好 $\texttt{No}$ 而不是 $\texttt{Never}$ 会显著增加 $\texttt{Yes}$ 的概率。此外,当将模型与拒绝不安全提示对齐时,我们表明这种位移可能会无意地导致不对齐,通过将概率质量从偏好的拒绝响应转移到有害响应(例如,将 Llama-3-8B-Instruct 的拒绝率从 74.4% 降低到 33.4%)。我们从理论上描述了可能性位移是由诱导相似嵌入的偏好驱动的,如中心隐藏嵌入相似性 (CHES) 分数所衡量的那样。在经验上,CHES 分数能够识别出在给定数据集中对可能性位移贡献最大的训练样本。在我们的实验中,过滤掉这些样本有效地减轻了无意间的不对齐。更广泛地说,我们的结果强调了策划具有足够不同偏好的数据的必要性,我们相信 CHES 分数可能会证明其价值。