LLM2D
将价值重新带回RL:通过统一语言模型推理器与验证器,实现更好的测试时缩放
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
作者: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04842v1

摘要

arXiv:2505.04842v1 宣告类型: cross 摘要: 用于微调大型语言模型推理器的盛行强化学习(RL)方法,如GRPO或Leave-one-out PPO,会放弃学习的价值函数,而倾向于使用经验估计的回报值。这阻碍了依赖于使用价值函数进行验证的测试时计算量的扩展。在本文中,我们提出了RL$^V$,它通过联合训练LLM作为推理器和使用RL生成的数据作为生成验证器,增强了任何“价值无关”的RL方法,而无需显著增加开销来添加验证能力。实验证明,通过并行采样,RL$^V$能将MATH准确率提高20%以上,并且与基RL方法相比,RL$^V$能够实现8到32倍的高效测试时计算量扩展。此外,RL$^V$在容易到困难的任务和跨领域任务上都表现出强大的泛化能力。进一步地,RL$^V$在与长推理R1模型共同扩展并行和顺序测试时计算量时,实现了1.2到1.6倍的性能提升。