LLM2D
VAPO: 高效且可靠的高级推理任务强化学习
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
作者: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.05118v1

摘要

arXiv:2504.05118v1 宣告类型: 新 摘要: 我们提出了一种基于价值的增强近端策略优化框架VAPO,该框架专为价值范式下的推理模型设计。VAPO在AIME 2024数据集上取得了最先进的得分$\mathbf{60.4}$。在相同的实验设置下,VAPO在与此前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO的直接比较中,性能高出10分以上。VAPO的训练过程表现出色且高效,在仅仅5,000步内就达到了最先进的性能。此外,多次独立运行中没有出现训练崩溃的情况,这突显了其可靠性。这项研究探讨了在基于价值的强化学习框架中使用长链思维推理(long-CoT)。我们指出了基于价值方法面临的三个关键挑战:价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统设计,VAPO提供了一种综合解决方案,有效地缓解了这些挑战,从而在长链思维推理任务中实现了更好的性能。