摘要
arXiv:2504.05118v1 宣告类型: 新
摘要: 我们提出了一种基于价值的增强近端策略优化框架VAPO,该框架专为价值范式下的推理模型设计。VAPO在AIME 2024数据集上取得了最先进的得分$\mathbf{60.4}$。在相同的实验设置下,VAPO在与此前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO的直接比较中,性能高出10分以上。VAPO的训练过程表现出色且高效,在仅仅5,000步内就达到了最先进的性能。此外,多次独立运行中没有出现训练崩溃的情况,这突显了其可靠性。这项研究探讨了在基于价值的强化学习框架中使用长链思维推理(long-CoT)。我们指出了基于价值方法面临的三个关键挑战:价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统设计,VAPO提供了一种综合解决方案,有效地缓解了这些挑战,从而在长链思维推理任务中实现了更好的性能。