LLM2D

摘要

arXiv:2409.14836v1 公告类型: 交叉摘要: DPO是一种有效的偏好优化算法。然而，DPO调优的模型往往对不偏好的样本过度拟合，表现为生成过于冗长且缺乏多样性。尽管最近的正则化方法通过修改目标函数努力缓解这一问题，但它们在实现这一目标的同时牺牲了对齐性能。本文中，我们创新性地从权重更新的角度引入正则化，以抑制对齐过度拟合。通过初步实验，我们发现过度拟合与超球面能量波动之间存在正相关关系。因此，我们通过一种称为权重旋转偏好优化（RoPO）的方法引入正交微调，该方法仅对权重参数进行旋转和幅度拉伸更新，以保持超球面能量不变，从而保留神经元之间角度编码的知识。大量实验表明，我们的模型在仅使用0.0086%的可训练参数的情况下，完美地与人类偏好对齐，同时保留了原有的表达能力，表明了有效的过度拟合正则化。具体而言，RoPO在MT-Bench上比DPO高出最多10分，在AlpacaEval 2上高出最多2.8分，同时生成多样性平均提高了6分。