摘要
arXiv:2502.01930v1 类型: cross
摘要: 在使大型语言模型(LLMs)与人类偏好对齐方面的一个主要挑战是分布偏移问题。LLM对齐算法依赖于静态偏好数据集,假定它们准确地代表了真实世界的用户偏好。然而,用户偏好在地理位置、人口统计、语言模式和不断演变的文化趋势方面存在显著差异。这种偏好分布偏移导致许多实际应用中的灾难性对齐失败。我们使用分布稳健优化的原理框架来解决这个问题,并开发了两种新颖的分布稳健直接偏好优化(DPO)算法,即Wasserstein DPO(WDPO)和Kullback-Leibler DPO(KLDPO)。我们描述了学习WDPO和KLDPO的最优策略参数所需的样本复杂度。此外,我们通过开发适合的近似来解决WDPO和KLDPO的具有挑战性的 minimax 损失函数,提出了可扩展的梯度下降式学习算法。我们的实证实验表明,当存在偏好分布偏移时,WDPO和KLDPO在显著提高对齐方面表现出更优越的性能。