LLM2D

摘要

arXiv:2504.05118v2 通告类型: 修改摘要: 我们展示了VAPO（基于价值的增强近端策略优化框架），该框架专门针对基于价值的范式中的推理模型。VAPO在AIME 2024数据集上的表现达到了最先进的得分$\mathbf{60.4}$。在相同的实验设置下与之前报道的结果进行直接比较时，VAPO在性能上超过了DeepSeek-R1-Zero-Qwen-32B和DAPO超过10个点。VAPO的训练过程因其稳定性和效率而突出。它仅在5,000步内达到了最先进的性能。此外，在多次独立运行中，没有出现训练崩溃的情况，这突显了其可靠性。这项研究通过基于价值的强化学习框架探讨了长推理链（long-CoT）推理。我们指出了基于价值的方法面临的三个主要挑战：价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统的架构设计，VAPO提供了一种综合的解决方案，有效地缓解了这些挑战，从而在长推理链推理任务中实现了更优异的表现。