摘要
arXiv:2502.01456v1 交叉类型
摘要:在大型语言模型(LLMs)的推理时扩展中,密集过程奖励已被证明是稀疏结果级奖励更加有效的替代方案,尤其是在需要复杂多步推理的任务中。尽管密集奖励也为LLMs的强化学习(RL)提供了一种有吸引力的选择,因为它们的细微奖励有可能解决结果奖励的一些内在问题,如训练效率和责任分配问题,但这种潜力尚未得到充分利用。这主要归因于在线训练过程奖励模型(PRMs)的挑战,其中收集高质量的过程标签成本高昂,使它们特别容易受到奖励劫持的影响。为了应对这些挑战,我们提出了PRIME(过程通过隐含奖励的强化学习),它仅通过隐含过程奖励使用策略滚动和结果标签实现了在线PRM更新。PRIME能够与各种优势函数很好地结合,并放弃了现有方法所需的专门奖励模型训练阶段,显著减少了开发工作量。我们通过竞技数学和编程示范了PRIME的有效性。从Qwen2.5-Math-7B-Base开始,PRIME在几个关键推理基准上的平均改进为SFT模型的15.1%。值得注意的是,我们最终的模型Eurus-2-7B-PRIME仅使用其训练数据的10%,就在七个推理基准上超过了Qwen2.5-Math-7B-Instruct。