摘要
arXiv:2504.13837v1 公告类型: 新
摘要: 可验证奖励的强化学习(RLVR)最近在增强大型语言模型(LLM)的推理能力方面取得了显著的成果,尤其是在数学和编程任务中。普遍认为,RLVR使得LLM能够持续自我提升,从而获得超越基底模型能力的新推理能力。然而,在这项研究中,我们通过使用较大的k值来重新审视这一假设,测量pass@\textit{k}指标,以探索模型在广泛范围的模型家族和基准测试中的推理能力边界。令人惊讶的是,实际上RL并没有引发根本性的新推理模式。虽然RL训练的模型在较小的k值(例如,k=1)下优于其基底模型,但在较大的k值下,基底模型可以实现与RL版本相当甚至更高的pass@$k$分数。RL训练模型生成的推理路径已经包含在基底模型的采样分布中,这表明RL训练模型中表现出的大部分推理能力实际上已经被基底模型所获得。进一步的分析表明,RL训练通过偏向模型输出分布以更可能产生奖励的路径从而更高效地采样正确答案,提高了模型的性能。但这也会导致与基底模型相比,推理能力边界变窄。在使用RLVR训练的视觉推理任务中也观察到类似的结果。此外,我们发现蒸馏可以真正地为模型引入新的知识,这与RLVR不同。这些发现凸显了RLVR在推进LLM推理能力方面的重要局限性,要求我们从根本上重新思考RL训练对推理LLM的影响以及需要一种更好的范式。项目页面: https://limit-of-RLVR.github.io