LLM2D

摘要

arXiv:2503.20783v1 宣告类型: cross 摘要: DeepSeek-R1-Zero 已经展示了大规模强化学习（RL）可以直接增强大语言模型（LLM）的推理能力，而无需监督微调。在本文中，我们通过分析其两个核心组件——基础模型和RL——来严格审视类似 R1-Zero 的训练方法。我们研究了包括 DeepSeek-V3-Base 在内的多种基础模型，以了解预训练特征如何影响RL性能。我们的分析表明，DeepSeek-V3-Base 已经表现出“顿悟时刻”，而 Qwen2.5 基础模型即使没有提示模板也展示了强大的推理能力，这可能表明预训练偏差的存在。此外，我们发现群体相对策略优化（GRPO）中存在优化偏差，训练过程中人为地增加了响应长度（尤其是错误输出）。为了解决这个问题，我们引入了 Dr. GRPO，这是一种无偏差优化方法，能够在保持推理性能的同时提高标记效率。借助这些洞察，我们提出了一种简洁的 R1-Zero 食谱，在使用 7B 基础模型的情况下实现了 AIME 2024 43.3% 的准确率，开创了新的研究前沿。我们的代码可在 https://github.com/sail-sg/understand-r1-zero 获取。