LLM2D
VAPO: 高效可靠的目标推理强化学习
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
作者: Yu Yue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Xiangyu Yu, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.05118v3

摘要

arXiv:2504.05118v3 宣告类型: 重置 摘要: 我们介绍了基于价值的增强近端策略优化框架VAPO(VAPO: Value-based Augmented Proximal Policy Optimization framework for reasoning models),这是一种专为价值为基础范式中的推理模型设计的新框架。VAPO在AIME 2024数据集上进行基准测试,基于预训练的Qwen 32B模型,取得了最先进的得分 **60.4**。在相同的实验设置下直接对比,VAPO在与之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果相比时,表现超过10分。VAPO的训练过程以其稳定性和效率突出。仅在5,000步内就达到了最先进的性能。此外,在多次独立运行中,没有发生训练崩溃的情况,这凸显了其可靠性。这项研究探讨了使用基于价值的强化学习框架进行长链推理(long-CoT reasoning)。我们指出了基于价值的方法面临的三个关键挑战:价值模型偏倚、异构序列长度的存在以及奖励信号的稀疏性。通过系统的设计理念,VAPO提供了一种综合解决方案,有效缓解了这些挑战,从而在长链推理任务中实现了更好的性能。