LLM2D

摘要

arXiv:2504.05118v3 宣告类型: 重置摘要: 我们介绍了基于价值的增强近端策略优化框架VAPO(VAPO: Value-based Augmented Proximal Policy Optimization framework for reasoning models)，这是一种专为价值为基础范式中的推理模型设计的新框架。VAPO在AIME 2024数据集上进行基准测试，基于预训练的Qwen 32B模型，取得了最先进的得分 **60.4**。在相同的实验设置下直接对比，VAPO在与之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果相比时，表现超过10分。VAPO的训练过程以其稳定性和效率突出。仅在5,000步内就达到了最先进的性能。此外，在多次独立运行中，没有发生训练崩溃的情况，这凸显了其可靠性。这项研究探讨了使用基于价值的强化学习框架进行长链推理（long-CoT reasoning）。我们指出了基于价值的方法面临的三个关键挑战：价值模型偏倚、异构序列长度的存在以及奖励信号的稀疏性。通过系统的设计理念，VAPO提供了一种综合解决方案，有效缓解了这些挑战，从而在长链推理任务中实现了更好的性能。