LLM2D

摘要

arXiv:2502.06773v1 宣布类型: 新闻摘要: 最近的AI进展，如OpenAI的新模型，正将LLMs（大型语言模型）转变为LRMs（大型推理模型），这些模型在推理过程中进行推理，这会耗费额外的时间和计算资源以获得更高质量的输出。我们的目标是探索训练LRMs的算法框架。方法如自我一致性、PRM和AlphaZero表明推理是一种受引导的搜索。我们提出的问题是：在LLMs中启用搜索的最简单且可扩展的方法是什么？我们提出了一种后训练框架，称为自游戏强化学习（RLSP，Reinforcement Learning via Self-Play）。RLSP包括三个步骤：（1）监督微调，使用人类或合成的推理过程示范，（2）使用探索奖励信号来鼓励多样性和高效的推理行为，以及（3）使用结果验证器进行强化学习训练，以确保正确性和防止奖励作弊。我们的关键创新是在PPO训练过程中将探索信号和正确性信号脱耦，并仔细平衡它们，以提高性能和效率。在数学领域的实证研究中，RLSP 提高了推理能力。在Llama-3.1-8B-Instruct模型上，RLSP 可以在MATH-500测试集上提高23%的性能；在AIME 2024数学问题上，Qwen2.5-32B-Instruct因为RLSP提高了10%的性能。然而，这项工作更为重要的发现是，使用RLSP训练的模型，即使使用最简单的鼓励模型采取更多中间步骤的探索奖励信号，也显示了多种涌现行为，如回溯、思想的探索和验证。这些发现证明了当分阶段扩展时，RLSP框架可能足以使LLMs具备复杂推理能力。最后，我们提出了一种理论，该理论受到一个惊人结果的启发，该结果表明CoT（逐步推理）理论上确实增强了LLMs的计算能力，这种增强随着CoT中步骤的数量增加而增加[Li, 2024, Chained Thought; Merrill, 2023, Expressive]。