LLM2D

摘要

arXiv:2502.01930v1 类型: cross 摘要: 在使大型语言模型（LLMs）与人类偏好对齐方面的一个主要挑战是分布偏移问题。LLM对齐算法依赖于静态偏好数据集，假定它们准确地代表了真实世界的用户偏好。然而，用户偏好在地理位置、人口统计、语言模式和不断演变的文化趋势方面存在显著差异。这种偏好分布偏移导致许多实际应用中的灾难性对齐失败。我们使用分布稳健优化的原理框架来解决这个问题，并开发了两种新颖的分布稳健直接偏好优化（DPO）算法，即Wasserstein DPO（WDPO）和Kullback-Leibler DPO（KLDPO）。我们描述了学习WDPO和KLDPO的最优策略参数所需的样本复杂度。此外，我们通过开发适合的近似来解决WDPO和KLDPO的具有挑战性的 minimax 损失函数，提出了可扩展的梯度下降式学习算法。我们的实证实验表明，当存在偏好分布偏移时，WDPO和KLDPO在显著提高对齐方面表现出更优越的性能。