摘要
arXiv:2504.05118v3 宣告类型: 重置
摘要: 我们介绍了基于价值的增强近端策略优化框架VAPO(VAPO: Value-based Augmented Proximal Policy Optimization framework for reasoning models),这是一种专为价值为基础范式中的推理模型设计的新框架。VAPO在AIME 2024数据集上进行基准测试,基于预训练的Qwen 32B模型,取得了最先进的得分 **60.4**。在相同的实验设置下直接对比,VAPO在与之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果相比时,表现超过10分。VAPO的训练过程以其稳定性和效率突出。仅在5,000步内就达到了最先进的性能。此外,在多次独立运行中,没有发生训练崩溃的情况,这凸显了其可靠性。这项研究探讨了使用基于价值的强化学习框架进行长链推理(long-CoT reasoning)。我们指出了基于价值的方法面临的三个关键挑战:价值模型偏倚、异构序列长度的存在以及奖励信号的稀疏性。通过系统的设计理念,VAPO提供了一种综合解决方案,有效缓解了这些挑战,从而在长链推理任务中实现了更好的性能。