摘要
arXiv:2502.06773v1 宣布类型: 新闻
摘要: 最近的AI进展,如OpenAI的新模型,正将LLMs(大型语言模型)转变为LRMs(大型推理模型),这些模型在推理过程中进行推理,这会耗费额外的时间和计算资源以获得更高质量的输出。我们的目标是探索训练LRMs的算法框架。方法如自我一致性、PRM和AlphaZero表明推理是一种受引导的搜索。我们提出的问题是:在LLMs中启用搜索的最简单且可扩展的方法是什么?
我们提出了一种后训练框架,称为自游戏强化学习(RLSP,Reinforcement Learning via Self-Play)。RLSP包括三个步骤:(1)监督微调,使用人类或合成的推理过程示范,(2)使用探索奖励信号来鼓励多样性和高效的推理行为,以及(3)使用结果验证器进行强化学习训练,以确保正确性和防止奖励作弊。我们的关键创新是在PPO训练过程中将探索信号和正确性信号脱耦,并仔细平衡它们,以提高性能和效率。
在数学领域的实证研究中,RLSP 提高了推理能力。在Llama-3.1-8B-Instruct模型上,RLSP 可以在MATH-500测试集上提高23%的性能;在AIME 2024数学问题上,Qwen2.5-32B-Instruct因为RLSP提高了10%的性能。然而,这项工作更为重要的发现是,使用RLSP训练的模型,即使使用最简单的鼓励模型采取更多中间步骤的探索奖励信号,也显示了多种涌现行为,如回溯、思想的探索和验证。这些发现证明了当分阶段扩展时,RLSP框架可能足以使LLMs具备复杂推理能力。最后,我们提出了一种理论,该理论受到一个惊人结果的启发,该结果表明CoT(逐步推理)理论上确实增强了LLMs的计算能力,这种增强随着CoT中步骤的数量增加而增加[Li, 2024, Chained Thought; Merrill, 2023, Expressive]。