LLM2D
分布 robust 直接偏好优化
Distributionally Robust Direct Preference Optimization
作者: Zaiyan Xu, Sushil Vemuri, Kishan Panaganti, Dileep Kalathil, Rahul Jain, Deepak Ramachandran
发布日期: 2/5/2025
arXiv ID: 2502.01930

摘要

arXiv:2502.01930v1 宣告类型: 交叉 摘要: 在使大规模语言模型(LLMs)与人类偏好保持一致的过程中,一个主要的挑战是分布偏移问题。LLM对齐算法依赖于静态偏好数据集,并假设这些数据集准确地代表了真实世界的用户偏好。然而,用户的偏好在地理区域、人口统计、语言模式以及不断变化的文化趋势之间差异显著。这种偏好分布偏移导致了在许多实际应用中出现灾难性的对齐失败。我们使用分布鲁棒优化的原则框架来解决这一问题,开发了两种新颖的分布鲁棒直接偏好优化(DPO)算法,即Wasserstein DPO(WDPO)和Kullback-Leibler DPO(KLDPO)。我们对WDPO和KLDPO的最佳策略参数的学习样本复杂性进行了刻画。此外,我们通过为WDPO和KLDPO的挑战性的最小极大损失函数开发适当的近似方法,提出了一种可扩展的梯度下降式学习算法。我们的实验结果表明,在偏好分布偏移的情况下,WDPO和KLDPO在显著提高对齐方面具有优越的表现。