LLM2D
逻辑-RL:基于规则的强化学习释放大型语言模型推理能力
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
作者: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14768v1

摘要

arXiv:2502.14768v1 类型: cross 摘要:受到DeepSeek-R1成功的启发,我们探索了基于规则的强化学习(RL)在大型推理模型中的潜在价值。为了分析推理动态,我们使用合成逻辑谜题作为训练数据,因为这些谜题的复杂性可控制且答案验证直接明了。我们做出了一些关键的技术贡献,从而实现了有效的和稳定的RL训练:强调思考和回答过程的系统提示、针对走捷径输出进行惩罚的严格的格式奖励函数,以及实现了稳定收敛的简单训练方法。我们的7B模型发展了高级推理技能,如反思、验证和总结,这些技能在逻辑语料库中是不存在的。尤为 impressive 的是,仅在5K逻辑问题的训练后,它就展示了对挑战性的数学基准AIME和AMC的一般化能力。