LLM2D
VAPO: 高效可靠的高级推理任务 reinforcement 学习
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
作者: Yu Yue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Xiangyu Yu, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05118v2

摘要

arXiv:2504.05118v2 通告类型: 修改 摘要: 我们展示了VAPO(基于价值的增强近端策略优化框架),该框架专门针对基于价值的范式中的推理模型。VAPO在AIME 2024数据集上的表现达到了最先进的得分$\mathbf{60.4}$。在相同的实验设置下与之前报道的结果进行直接比较时,VAPO在性能上超过了DeepSeek-R1-Zero-Qwen-32B和DAPO超过10个点。VAPO的训练过程因其稳定性和效率而突出。它仅在5,000步内达到了最先进的性能。此外,在多次独立运行中,没有出现训练崩溃的情况,这突显了其可靠性。这项研究通过基于价值的强化学习框架探讨了长推理链(long-CoT)推理。我们指出了基于价值的方法面临的三个主要挑战:价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统的架构设计,VAPO提供了一种综合的解决方案,有效地缓解了这些挑战,从而在长推理链推理任务中实现了更优异的表现。