LLM2D

摘要

arXiv:2503.18892v1 宣告类型: cross 摘要: DeepSeek-R1 已经展示了，通过基于规则的奖励简单强化学习 (RL) 框架，长链思考 (CoT) 推理可以自然地出现，而训练可能直接从基础模型开始，这就是所谓的零 RL 训练。最近在重现零 RL 训练的努力中，主要集中在 Qwen2.5 模型系列上，这可能不够代表，因为我们的研究表明，基础模型本身已经表现出强烈的操作指令和自我反思的能力。在本工作中，我们研究了跨越10个不同基础模型的零 RL 训练，这些基础模型涵盖了不同的家庭和大小，包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及所有从0.5B到32B的所有Qwen2.5模型。通过采用几种关键设计策略，如调整格式奖励和控制查询难度，我们在多数设置中实现了推理准确性和响应长度的显著改进。然而，通过仔细监测训练动态，我们观察到不同的基础模型在训练期间表现出不同的模式。例如，增加的响应长度并不总是与某些认知行为（即“恍然大悟”或“啊哈时刻”）的出现相关。值得注意的是，我们在来自Qwen家族的小模型中首次观察到“恍然大悟”的现象。我们分享了使零 RL 训练成功的关键设计，同时分享了我们的发现和实践经验。为促进进一步的研究，我们开源了代码、模型和分析工具。