LLM2D

摘要

直接偏好优化 (DPO) 及其变体越来越多地用于使语言模型与人类偏好相一致。虽然这些方法旨在教会模型更频繁地生成偏好响应，而不是非偏好响应，但先前的工作观察到，偏好响应的可能性在训练过程中往往会下降。目前的工作阐明了这种反直觉现象（我们称之为可能性位移）的原因和影响。我们证明，可能性位移可能是灾难性的，它会将概率质量从偏好响应转移到具有相反含义的响应。举个简单的例子，训练模型偏好 $\texttt{No}$ 而不是 $\texttt{Never}$ 会显著增加 $\texttt{Yes}$ 的概率。此外，当将模型与拒绝不安全提示对齐时，我们表明这种位移可能会无意地导致不对齐，通过将概率质量从偏好的拒绝响应转移到有害响应（例如，将 Llama-3-8B-Instruct 的拒绝率从 74.4% 降低到 33.4%）。我们从理论上描述了可能性位移是由诱导相似嵌入的偏好驱动的，如中心隐藏嵌入相似性 (CHES) 分数所衡量的那样。在经验上，CHES 分数能够识别出在给定数据集中对可能性位移贡献最大的训练样本。在我们的实验中，过滤掉这些样本有效地减轻了无意间的不对齐。更广泛地说，我们的结果强调了策划具有足够不同偏好的数据的必要性，我们相信 CHES 分数可能会证明其价值。