LLM2D
无意对齐偏差:直接偏好优化中的概率位移
Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization
作者: Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2410.08847v4

摘要

arXiv:2410.08847v4 公告类型: replace-cross 摘要:直接偏好优化(DPO)及其变体越来越被用于使语言模型与人类偏好保持一致。虽然这些方法旨在教导模型更多地生成受偏好响应,相对于不受偏好响应,但先前的研究观察到,在训练过程中,受偏好响应的可能性往往会降低。本工作揭示了这一反直觉现象的原因及其影响,我们将这一现象称为可能性位移。我们展示了可能性位移可能会导致灾难性的结果,将受偏好响应的可能性质量转移给意义相反的响应。以一个简单的例子为例,训练模型更倾向于 “No” 而不是 “Never” 可能会显著增加 “Yes”的概率。此外,当我们使模型对不安全的提示说“不”时,我们证明这种位移可能会无意中导致未对齐,通过将受偏好拒绝响应的可能性质量转移到有害响应(例如,将 Llama-3-8B-Instruct 的拒绝率从 74.4% 降低到 33.4%)。我们理论地表明,可能性位移是由嵌入相似度(以居中隐藏嵌入相似度(CHES)分数衡量)相似的偏好引起。从经验上讲,CHES 分数能帮助识别哪些训练样本在给定数据集中对可能性位移贡献最大。排除这些样本有效地缓解了我们在实验中遇到的无意未对齐。更广泛地说,我们的结果强调了拥有足够独特的偏好数据集的重要性,我们相信 CHES 分数可能在这方面证明是有价值的。