LLM2D
理解 R1-Zero-like 训练:一种批判性视角
Understanding R1-Zero-Like Training: A Critical Perspective
作者: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20783v1

摘要

arXiv:2503.20783v1 宣告类型: cross 摘要: DeepSeek-R1-Zero 已经展示了大规模强化学习(RL)可以直接增强大语言模型(LLM)的推理能力,而无需监督微调。在本文中,我们通过分析其两个核心组件——基础模型和RL——来严格审视类似 R1-Zero 的训练方法。我们研究了包括 DeepSeek-V3-Base 在内的多种基础模型,以了解预训练特征如何影响RL性能。我们的分析表明,DeepSeek-V3-Base 已经表现出“顿悟时刻”,而 Qwen2.5 基础模型即使没有提示模板也展示了强大的推理能力,这可能表明预训练偏差的存在。此外,我们发现群体相对策略优化(GRPO)中存在优化偏差,训练过程中人为地增加了响应长度(尤其是错误输出)。为了解决这个问题,我们引入了 Dr. GRPO,这是一种无偏差优化方法,能够在保持推理性能的同时提高标记效率。借助这些洞察,我们提出了一种简洁的 R1-Zero 食谱,在使用 7B 基础模型的情况下实现了 AIME 2024 43.3% 的准确率,开创了新的研究前沿。我们的代码可在 https://github.com/sail-sg/understand-r1-zero 获取。