LLM2D
正交微调用于直接偏好优化
Orthogonal Finetuning for Direct Preference Optimization
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14836v1

摘要

arXiv:2409.14836v1 公告类型: 交叉 摘要: DPO是一种有效的偏好优化算法。然而,DPO调优的模型往往对不偏好的样本过度拟合,表现为生成过于冗长且缺乏多样性。尽管最近的正则化方法通过修改目标函数努力缓解这一问题,但它们在实现这一目标的同时牺牲了对齐性能。本文中,我们创新性地从权重更新的角度引入正则化,以抑制对齐过度拟合。通过初步实验,我们发现过度拟合与超球面能量波动之间存在正相关关系。因此,我们通过一种称为权重旋转偏好优化(RoPO)的方法引入正交微调,该方法仅对权重参数进行旋转和幅度拉伸更新,以保持超球面能量不变,从而保留神经元之间角度编码的知识。大量实验表明,我们的模型在仅使用0.0086%的可训练参数的情况下,完美地与人类偏好对齐,同时保留了原有的表达能力,表明了有效的过度拟合正则化。具体而言,RoPO在MT-Bench上比DPO高出最多10分,在AlpacaEval 2上高出最多2.8分,同时生成多样性平均提高了6分。