LLM2D
SimpleRL-Zoo: 探索和驯化开源基础模型在野外的零强化学习
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
作者: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18892v1

摘要

arXiv:2503.18892v1 宣告类型: cross 摘要: DeepSeek-R1 已经展示了,通过基于规则的奖励简单强化学习 (RL) 框架,长链思考 (CoT) 推理可以自然地出现,而训练可能直接从基础模型开始,这就是所谓的零 RL 训练。最近在重现零 RL 训练的努力中,主要集中在 Qwen2.5 模型系列上,这可能不够代表,因为我们的研究表明,基础模型本身已经表现出强烈的操作指令和自我反思的能力。在本工作中,我们研究了跨越10个不同基础模型的零 RL 训练,这些基础模型涵盖了不同的家庭和大小,包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及所有从0.5B到32B的所有Qwen2.5模型。通过采用几种关键设计策略,如调整格式奖励和控制查询难度,我们在多数设置中实现了推理准确性和响应长度的显著改进。然而,通过仔细监测训练动态,我们观察到不同的基础模型在训练期间表现出不同的模式。例如,增加的响应长度并不总是与某些认知行为(即“恍然大悟”或“啊哈时刻”)的出现相关。值得注意的是,我们在来自Qwen家族的小模型中首次观察到“恍然大悟”的现象。我们分享了使零 RL 训练成功的关键设计,同时分享了我们的发现和实践经验。为促进进一步的研究,我们开源了代码、模型和分析工具。