摘要
arXiv:2502.04567v1 宣布类型: 新增
摘要:现有的偏好优化(PO)研究主要集中在基于简单的启发式方法构建成对偏好数据,例如,根据人类(或AI)排名得分最大化受偏好和不受偏好的完成之间的差距。然而,这些启发式方法都没有完全的理论依据。在本文中,我们开发了一种新的PO框架,为有效采样不受偏好的完成提供了理论指导。为了实现这一目标,我们将PO形式化为最小化概率模型的负对数似然(NLL),并提出通过采样策略估计其归一化常数。正如我们将要证明的,这些估计样本可以作为PO中的不受偏好完成。然后,我们选择对比发散(CD)作为采样策略,并提出了一种新的MC-PO算法,该算法应用对比发散(CD)中的蒙特卡洛(MC)核,针对参数化的奖励模型采样困难负例。最后,我们提出了一种OnMC-PO算法,它是MC-PO在在线设置中的扩展。在流行的对齐基准测试中,MC-PO优于现有最先进的baseline,而OnMC-PO进一步提升了性能。