LLM2D

摘要

arXiv:2502.04567v1 宣布类型: 新增摘要：现有的偏好优化（PO）研究主要集中在基于简单的启发式方法构建成对偏好数据，例如，根据人类（或AI）排名得分最大化受偏好和不受偏好的完成之间的差距。然而，这些启发式方法都没有完全的理论依据。在本文中，我们开发了一种新的PO框架，为有效采样不受偏好的完成提供了理论指导。为了实现这一目标，我们将PO形式化为最小化概率模型的负对数似然（NLL），并提出通过采样策略估计其归一化常数。正如我们将要证明的，这些估计样本可以作为PO中的不受偏好完成。然后，我们选择对比发散（CD）作为采样策略，并提出了一种新的MC-PO算法，该算法应用对比发散（CD）中的蒙特卡洛（MC）核，针对参数化的奖励模型采样困难负例。最后，我们提出了一种OnMC-PO算法，它是MC-PO在在线设置中的扩展。在流行的对齐基准测试中，MC-PO优于现有最先进的baseline，而OnMC-PO进一步提升了性能。