摘要
arXiv:2502.12678v1 类型: cross
摘要: 人类反馈强化学习(RLHF)已经在使大型语言模型与人类偏好相一致方面取得了巨大成功。虽然许多方法如DPO已经展示了强大的性能,但这些方法将与语言模型的交互视为一个多臂 bandit 问题,这限制了它们在多轮对话常见的实际场景中的应用。此外,DPO依赖于Bradley-Terry模型假设,这并不能充分捕捉人类偏好的非传递性。在这篇论文中,我们通过将对齐问题建模为两名玩家的常和马尔可夫博弈来解决这些挑战,在这场博弈中,每名玩家试图在整个对话过程中最大化对阵另一方的胜率。我们的方法多步偏好优化(MPO)基于自然行为-批评框架~\citep{peters2008natural}。我们在此基础上进一步开发了OMPO算法,该算法基于乐观在线梯度下降算法~\citep{rakhlin2013online,joulani17a}。理论上,我们对这两种算法的收敛性进行了严格的分析,并表明OMPO需要$\mathcal{O}(\epsilon^{-1})$次策略更新才能收敛到$\epsilon$-近似的纳什均衡。我们还通过多轮对话数据集和数学推理数据集验证了我们方法的有效性。