摘要
arXiv:2502.14560v1 交叉公告类型:
摘要: 直接偏好优化(DPO)已成为一种有前途的方法,用于使大型语言模型与人类偏好对齐。虽然先前的工作主要从目标函数的角度扩展了DPO,但我们相反地从很大程度上被忽视但至关重要的数据选择角度改进了DPO。具体来说,我们通过提出一种新颖的边际最大化原则来解决由噪声数据引起的参数收缩问题,该原则用于DPO训练的数据集策展。为了准确估计用于数据选择的边际,我们提出了一种双重边际引导的方法,该方法同时考虑外部奖励边际和隐式DPO奖励边际。大量实验表明,我们的方法在显著降低成本的同时提高了性能。更为值得注意的是,通过仅使用Ultrafeedback数据集的10%,我们的方法在AlpacaEval 2.0基准上针对各种Llama和Mistral系列模型实现了3%至8%的性能提升。此外,我们的方法无缝应用于迭代DPO,在使用25%在线数据的情况下获得了约3%的性能改进,同时进一步减少了训练时间。这些结果突显了数据选择策略在推进偏好优化方面的潜力。