摘要
arXiv:2502.13177v1 宣布类型: cross
摘要: 直接偏好优化(Direct Preference Optimization, DPO)展示了仅使用离线数据将大型语言模型与人类偏好对齐的优势。然而,DPO 的一个局限性在于,用于防止过度偏离参考模型的 KL 惩罚项在整个训练过程中是静态的。尽管有几种方法尝试将这个静态的 KL 惩罚项变为动态的,但没有一种方法能够根据不同偏好对自适应地分配不同的 KL 惩罚项。在本文中,我们提出了 ε-Direct Preference Optimization (ε-DPO),它允许对每个偏好对的 KL 惩罚强度 β 进行自适应控制。具体而言,ε-DPO 通过在训练过程中简单地重用当前策略和参考策略的 logit,并基于扰动 β 时 logit 的单调性,对每个偏好对自适应地控制 β。实验结果表明,ε-DPO 在通用聊天机器人的基准测试中优于现有的直接对齐算法和 KL 惩罚放松方法,强调了在 DPO 中实例级自适应 KL 惩罚放松的重要性。