LLM2D

摘要

arXiv:2504.05118v1 宣告类型: 新摘要: 我们提出了一种基于价值的增强近端策略优化框架VAPO，该框架专为价值范式下的推理模型设计。VAPO在AIME 2024数据集上取得了最先进的得分$\mathbf{60.4}$。在相同的实验设置下，VAPO在与此前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO的直接比较中，性能高出10分以上。VAPO的训练过程表现出色且高效，在仅仅5,000步内就达到了最先进的性能。此外，多次独立运行中没有出现训练崩溃的情况，这突显了其可靠性。这项研究探讨了在基于价值的强化学习框架中使用长链思维推理（long-CoT）。我们指出了基于价值方法面临的三个关键挑战：价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统设计，VAPO提供了一种综合解决方案，有效地缓解了这些挑战，从而在长链思维推理任务中实现了更好的性能。