摘要
DPO 是一种有效的偏好优化算法。然而,经过 DPO 调优的模型往往会在不受欢迎的样本上过拟合,表现为生成过长且缺乏多样性。尽管最近的正则化方法试图通过修改目标函数来缓解这一问题,但它们是以对齐性能的下降为代价实现的。在本文中,我们创新性地从权重更新的角度引入正则化来抑制对齐过拟合。通过初步实验,我们发现过拟合与超球能量波动之间存在正相关性。因此,我们通过一种权重旋转偏好优化(RoPO)方法为 DPO 引入正交微调,该方法仅对权重参数进行旋转和幅度拉伸更新,以保持超球能量不变,从而保留神经元之间角度中编码的知识。大量实验表明,我们的模型在完全符合人类偏好的同时,仅使用 0.0086% 的可训练参数就保留了原有的表达能力,表明这种方法是有效的防止过拟合的正则化方法。具体来说,RoPO 在 MT-Bench 上比 DPO 高出最多 10 分,在 AlpacaEval 2 上高出最多 2.8 分,同时在生成多样性上平均提高了 6 分。