LLM2D

摘要

DPO 是一种有效的偏好优化算法。然而，经过 DPO 调优的模型往往会在不受欢迎的样本上过拟合，表现为生成过长且缺乏多样性。尽管最近的正则化方法试图通过修改目标函数来缓解这一问题，但它们是以对齐性能的下降为代价实现的。在本文中，我们创新性地从权重更新的角度引入正则化来抑制对齐过拟合。通过初步实验，我们发现过拟合与超球能量波动之间存在正相关性。因此，我们通过一种权重旋转偏好优化（RoPO）方法为 DPO 引入正交微调，该方法仅对权重参数进行旋转和幅度拉伸更新，以保持超球能量不变，从而保留神经元之间角度中编码的知识。大量实验表明，我们的模型在完全符合人类偏好的同时，仅使用 0.0086% 的可训练参数就保留了原有的表达能力，表明这种方法是有效的防止过拟合的正则化方法。具体来说，RoPO 在 MT-Bench 上比 DPO 高出最多 10 分，在 AlpacaEval 2 上高出最多 2.8 分，同时在生成多样性上平均提高了 6 分。