LLM2D

摘要

arXiv:2502.01930v1 宣告类型: 交叉摘要: 在使大规模语言模型（LLMs）与人类偏好保持一致的过程中，一个主要的挑战是分布偏移问题。LLM对齐算法依赖于静态偏好数据集，并假设这些数据集准确地代表了真实世界的用户偏好。然而，用户的偏好在地理区域、人口统计、语言模式以及不断变化的文化趋势之间差异显著。这种偏好分布偏移导致了在许多实际应用中出现灾难性的对齐失败。我们使用分布鲁棒优化的原则框架来解决这一问题，开发了两种新颖的分布鲁棒直接偏好优化（DPO）算法，即Wasserstein DPO（WDPO）和Kullback-Leibler DPO（KLDPO）。我们对WDPO和KLDPO的最佳策略参数的学习样本复杂性进行了刻画。此外，我们通过为WDPO和KLDPO的挑战性的最小极大损失函数开发适当的近似方法，提出了一种可扩展的梯度下降式学习算法。我们的实验结果表明，在偏好分布偏移的情况下，WDPO和KLDPO在显著提高对齐方面具有优越的表现。