LLM2D

摘要

arXiv:2502.01456v1 交叉类型摘要：在大型语言模型（LLMs）的推理时扩展中，密集过程奖励已被证明是稀疏结果级奖励更加有效的替代方案，尤其是在需要复杂多步推理的任务中。尽管密集奖励也为LLMs的强化学习（RL）提供了一种有吸引力的选择，因为它们的细微奖励有可能解决结果奖励的一些内在问题，如训练效率和责任分配问题，但这种潜力尚未得到充分利用。这主要归因于在线训练过程奖励模型（PRMs）的挑战，其中收集高质量的过程标签成本高昂，使它们特别容易受到奖励劫持的影响。为了应对这些挑战，我们提出了PRIME（过程通过隐含奖励的强化学习），它仅通过隐含过程奖励使用策略滚动和结果标签实现了在线PRM更新。PRIME能够与各种优势函数很好地结合，并放弃了现有方法所需的专门奖励模型训练阶段，显著减少了开发工作量。我们通过竞技数学和编程示范了PRIME的有效性。从Qwen2.5-Math-7B-Base开始，PRIME在几个关键推理基准上的平均改进为SFT模型的15.1%。值得注意的是，我们最终的模型Eurus-2-7B-PRIME仅使用其训练数据的10%，就在七个推理基准上超过了Qwen2.5-Math-7B-Instruct。