LLM2D
停止求和:推理所需的所有过程奖励模型只需要最小形式的信用分配
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
作者: Jie Cheng, Ruixi Qiao, Lijun Li, Chao Guo, Junle Wang, Gang Xiong, Yisheng Lv, Fei-Yue Wang
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15275v1

摘要

arXiv:2504.15275v1 宣告类型: 新 摘要: 过程奖励模型(PRM)已被证明可在大型语言模型(LLM)在复杂推理任务上的测试时扩展中发挥有效作用。然而,PRM 引起的奖励作弊问题限制了其在强化学习微调中的成功应用。在本文中,我们确定了PRM引起的奖励作弊的主要原因:强化学习(RL)中的标准求和形式的信用分配,它定义价值为折现未来的奖励累加和,容易使LLM作弊以获得高奖励。为了解决这一问题,我们提出了PURE:过程监督强化学习。PURE的关键创新是采用最小值形式的信用分配,将价值函数定义为未来的最小奖励。该方法通过限制价值函数的范围并更合理地分配优势,显著缓解了奖励作弊。通过在3个基础模型上进行广泛的实验,我们展示了基于PRM的方法启用最小值形式的信用分配可以在仅30%的步骤内达到与可验证奖励方法相当的推理性能。相比之下,标准求和形式的信用分配甚至在训练开始时都会导致训练崩溃!另外,当我们以10%的可验证奖励补充基于PRM的微调时,我们进一步缓解了奖励作弊,并在我们的实验中基于Qwen2.5-Math-7B生成了最佳微调模型,在AMC23上达到了82.5%的准确率,并且在5个基准上的平均准确率为53.3%。此外,我们总结了观察到的奖励作弊案例,并分析了训练崩溃的原因。代码和模型可在https://github.com/CJReinforce/PURE找到。