LLM2D

摘要

arXiv:2504.15275v1 宣告类型: 新摘要: 过程奖励模型（PRM）已被证明可在大型语言模型（LLM）在复杂推理任务上的测试时扩展中发挥有效作用。然而，PRM 引起的奖励作弊问题限制了其在强化学习微调中的成功应用。在本文中，我们确定了PRM引起的奖励作弊的主要原因：强化学习（RL）中的标准求和形式的信用分配，它定义价值为折现未来的奖励累加和，容易使LLM作弊以获得高奖励。为了解决这一问题，我们提出了PURE：过程监督强化学习。PURE的关键创新是采用最小值形式的信用分配，将价值函数定义为未来的最小奖励。该方法通过限制价值函数的范围并更合理地分配优势，显著缓解了奖励作弊。通过在3个基础模型上进行广泛的实验，我们展示了基于PRM的方法启用最小值形式的信用分配可以在仅30%的步骤内达到与可验证奖励方法相当的推理性能。相比之下，标准求和形式的信用分配甚至在训练开始时都会导致训练崩溃！另外，当我们以10%的可验证奖励补充基于PRM的微调时，我们进一步缓解了奖励作弊，并在我们的实验中基于Qwen2.5-Math-7B生成了最佳微调模型，在AMC23上达到了82.5%的准确率，并且在5个基准上的平均准确率为53.3%。此外，我们总结了观察到的奖励作弊案例，并分析了训练崩溃的原因。代码和模型可在https://github.com/CJReinforce/PURE找到。