LLM2D
通过隐式奖励强化过程
Process Reinforcement through Implicit Rewards
作者: Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Wendi Li, Bingxiang He, Yuchen Fan, Tianyu Yu, Qixin Xu, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01456v1

摘要

arXiv:2502.01456v1 交叉类型 摘要:在大型语言模型(LLMs)的推理时扩展中,密集过程奖励已被证明是稀疏结果级奖励更加有效的替代方案,尤其是在需要复杂多步推理的任务中。尽管密集奖励也为LLMs的强化学习(RL)提供了一种有吸引力的选择,因为它们的细微奖励有可能解决结果奖励的一些内在问题,如训练效率和责任分配问题,但这种潜力尚未得到充分利用。这主要归因于在线训练过程奖励模型(PRMs)的挑战,其中收集高质量的过程标签成本高昂,使它们特别容易受到奖励劫持的影响。为了应对这些挑战,我们提出了PRIME(过程通过隐含奖励的强化学习),它仅通过隐含过程奖励使用策略滚动和结果标签实现了在线PRM更新。PRIME能够与各种优势函数很好地结合,并放弃了现有方法所需的专门奖励模型训练阶段,显著减少了开发工作量。我们通过竞技数学和编程示范了PRIME的有效性。从Qwen2.5-Math-7B-Base开始,PRIME在几个关键推理基准上的平均改进为SFT模型的15.1%。值得注意的是,我们最终的模型Eurus-2-7B-PRIME仅使用其训练数据的10%,就在七个推理基准上超过了Qwen2.5-Math-7B-Instruct。