摘要
arXiv:2502.14768v1 类型: cross
摘要:受到DeepSeek-R1成功的启发,我们探索了基于规则的强化学习(RL)在大型推理模型中的潜在价值。为了分析推理动态,我们使用合成逻辑谜题作为训练数据,因为这些谜题的复杂性可控制且答案验证直接明了。我们做出了一些关键的技术贡献,从而实现了有效的和稳定的RL训练:强调思考和回答过程的系统提示、针对走捷径输出进行惩罚的严格的格式奖励函数,以及实现了稳定收敛的简单训练方法。我们的7B模型发展了高级推理技能,如反思、验证和总结,这些技能在逻辑语料库中是不存在的。尤为 impressive 的是,仅在5K逻辑问题的训练后,它就展示了对挑战性的数学基准AIME和AMC的一般化能力。