摘要
arXiv:2503.18892v2 通告类型: replace-cross
摘要:DeepSeek-R1 表明,通过基于规则的奖励的简单强化学习(RL)框架,可以自然地生成长链条思考(CoT)推理,而训练可以从基础模型直接开始,这被称之为零RL训练。最近努力再现零RL训练主要集中在Qwen2.5 模型系列上,这可能并不具有代表性,因为我们发现基础模型已经表现出强烈的操作指令跟随和自我反思能力。在本文中,我们调查了跨越10个不同基础模型的零RL训练,这些基础模型涵盖了不同的家族和规模,包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及所有从0.5B到32B的Qwen2.5 模型。通过采用几种关键设计策略,如调整格式奖励和控制查询难度,我们在大多数设置中实现了推理准确性和响应长度的重大改进。然而,通过仔细监控训练动力学,我们观察到,不同基础模型在训练过程中表现出不同的模式。例如,响应长度的增加并不总是与某些认知行为(如验证,即“啊哈时刻”)的出现相关。值得注意的是,我们首次在Qwen家族之外的小型模型中观察到“啊哈时刻”。我们分享了能够成功实现零RL训练的关键设计、我们的发现和实践。为了促进进一步的研究,我们开源了代码、模型和分析工具。