LLM2D

摘要

arXiv:2505.04842v1 宣告类型: cross 摘要: 用于微调大型语言模型推理器的盛行强化学习(RL)方法，如GRPO或Leave-one-out PPO，会放弃学习的价值函数，而倾向于使用经验估计的回报值。这阻碍了依赖于使用价值函数进行验证的测试时计算量的扩展。在本文中，我们提出了RL$^V$，它通过联合训练LLM作为推理器和使用RL生成的数据作为生成验证器，增强了任何“价值无关”的RL方法，而无需显著增加开销来添加验证能力。实验证明，通过并行采样，RL$^V$能将MATH准确率提高20%以上，并且与基RL方法相比，RL$^V$能够实现8到32倍的高效测试时计算量扩展。此外，RL$^V$在容易到困难的任务和跨领域任务上都表现出强大的泛化能力。进一步地，RL$^V$在与长推理R1模型共同扩展并行和顺序测试时计算量时，实现了1.2到1.6倍的性能提升。