摘要
arXiv:2504.05118v2 通告类型: 修改
摘要: 我们展示了VAPO(基于价值的增强近端策略优化框架),该框架专门针对基于价值的范式中的推理模型。VAPO在AIME 2024数据集上的表现达到了最先进的得分$\mathbf{60.4}$。在相同的实验设置下与之前报道的结果进行直接比较时,VAPO在性能上超过了DeepSeek-R1-Zero-Qwen-32B和DAPO超过10个点。VAPO的训练过程因其稳定性和效率而突出。它仅在5,000步内达到了最先进的性能。此外,在多次独立运行中,没有出现训练崩溃的情况,这突显了其可靠性。这项研究通过基于价值的强化学习框架探讨了长推理链(long-CoT)推理。我们指出了基于价值的方法面临的三个主要挑战:价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统的架构设计,VAPO提供了一种综合的解决方案,有效地缓解了这些挑战,从而在长推理链推理任务中实现了更优异的表现。