LLM2D

摘要

arXiv:2504.11343v1 交叉公告类型：交叉摘要：强化学习（RL）已成为在复杂推理任务上微调大规模语言模型（LLMs）的主要方法。在近期方法中，GRPO因其在训练DeepSeek-R1等模型方面的实证成功而突出，但其有效性的来源尚不清楚。在本文中，我们从类似于强化学习的算法角度重新审视了GRPO，并分析了其核心组件。令人惊讶的是，我们发现一个简单的拒绝采样基线RAFT，在仅使用正向奖励样本训练的情况下，其性能与GRPO和PPO相当。我们的消融研究揭示了GRPO的主要优势来源于丢弃完全错误的回答提示，而不是其奖励规范化。受到这一洞察的启发，我们提出了一种Reinforce-Rej算法，它是策略梯度的最小扩展，能够过滤掉全部错误和全部正确的样本。Reinforce-Rej提高了KL效率和稳定性，并作为一种轻量级且有效的替代方法，服务于更复杂的RL算法。我们倡导使用RAFT作为稳健且可解释的基线，并建议未来的研究重点应放在更为原理性的设计上，以纳入负面样本，而不仅仅是对所有样本一视同仁地依赖。我们的发现为未来基于奖励的大规模语言模型后训练工作提供了指导。