摘要
使用隐式奖励模型的直接偏好优化(DPO)已被证明是微调偏好一致的大型语言模型(LLM)的强化学习从人类反馈(RLHF)的有效替代方法。然而,对响应的整体偏好注释并不能完全捕捉到模型输出在复杂的多步推理任务(如数学推理)中的细粒度质量。为了解决这一局限性,我们提出了一种名为步级价值偏好优化(SVPO)的新算法。我们的方法采用蒙特卡罗树搜索(MCTS)来自动标注多步推理的步级偏好。此外,从学习排序的角度来看,我们训练了一个显式价值模型来复制隐式奖励模型的行为,从而补充标准的偏好优化。这种价值模型使 LLM 能够以最小的推理成本生成更高的奖励响应。实验结果表明,我们的方法在领域内和领域外数学推理基准测试中均取得了最先进的性能。我们的代码可在 \url{https://github.com/MARIO-Math-Reasoning/Super_MARIO} 获取。