LLM2D

摘要

arXiv:2502.14768v1 类型: cross 摘要：受到DeepSeek-R1成功的启发，我们探索了基于规则的强化学习（RL）在大型推理模型中的潜在价值。为了分析推理动态，我们使用合成逻辑谜题作为训练数据，因为这些谜题的复杂性可控制且答案验证直接明了。我们做出了一些关键的技术贡献，从而实现了有效的和稳定的RL训练：强调思考和回答过程的系统提示、针对走捷径输出进行惩罚的严格的格式奖励函数，以及实现了稳定收敛的简单训练方法。我们的7B模型发展了高级推理技能，如反思、验证和总结，这些技能在逻辑语料库中是不存在的。尤为 impressive 的是，仅在5K逻辑问题的训练后，它就展示了对挑战性的数学基准AIME和AMC的一般化能力。