摘要
arXiv:2504.20571v1 交叉公告类型
摘要:我们展示了使用可验证奖励的一次训练示例(1-shot RLVR)的强化学习,这种方法在激励大型语言模型(LLMs)的数学推理能力方面是有效的。将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们发现一个单一的示例可以将模型在MATH500上的性能从36.0%提升到73.6%,并改善了六种常见数学推理基准测试的平均性能,从17.6%提高到35.7%。这个结果与使用1.2k DeepScaleR子集(MATH500:73.6%,平均:35.9%),其中包括上述示例的结果相符。在各种模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、RL算法(GRPO和PPO)和不同数学示例(许多示例在作为单一训练示例使用时,对MATH500的性能提升约为30%或更高)中,也观察到了类似的显著改进。此外,在1-shot RLVR过程中,我们观察到了一些有趣的现象,包括跨领域泛化、自我反思频率增加以及即使在训练准确性饱和后持续提高的测试性能,我们将其称为饱和后泛化。此外,我们验证了1-shot RLVR的有效性主要源自策略梯度损失,这使其与“理解”现象区分开来。我们还展示了在1-shot RLVR训练中促进探索(例如,通过添加适当的系数的熵损失)的临界作用。作为额外的收获,我们观察到,仅应用熵损失而不使用任何结果奖励,可以显著提升Qwen2.5-Math-1.5B在MATH500上的性能,提升幅度为27.4%。这些发现可以启发未来的RLVR数据效率研究,并鼓励对RLVR的近期进步及其内在机制进行重新审视。我们的代码、模型和数据在https://github.com/ypwang61/One-Shot-RLVR开源。