摘要
arXiv:2502.05773v1 标题类型: cross
摘要:对于语言模型如直接偏好优化(DPO)而言,离线偏好对齐因其有效性和简单性而受到青睐,消除了昂贵的强化学习需求。各种离线算法已经为不同的数据设置开发出来,但它们缺乏统一的理解。
在这项研究中,我们引入了基于先验信息的偏好对齐(PIPA),这是一种无需强化学习的统一概率框架,将语言模型偏好对齐问题形式化为具有先验约束的最大似然估计(MLE)问题。该方法有效地兼容了成对和非成对数据,以及答案和步骤级别的注释。我们展示了DPO和KTO是我们在框架内的不同先验约束下的特殊案例。通过整合不同类型的先验信息,我们开发了PIPA的两种变体:PIPA-M和PIPA-N。这两种算法在所有配置下均在GSM8K和MATH基准上表现出3%至10%的性能提升,并且在与现有算法相比无需额外的训练或计算成本的情况下实现了这些改进。