LLM2D
GPG:一种简单而强大的模型推理强化学习基线
GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning
作者: Xiangxiang Chu, Hailang Huang, Xiao Zhang, Fei Wei, Yong Wang
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.02546v2

摘要

arXiv:2504.02546v2 宣告类型: replace-cross 摘要:强化学习(RL)可以直接增强大型语言模型的推理能力,而无需大量依赖监督微调(SFT)。在本文中,我们重新审视了传统的策略梯度(PG)机制,并提出了一种简化的RL方法,称为组策略梯度(GPG)。与传统方法不同,GPG 直接优化原始的RL目标,因此无需使用代理损失函数。通过消除评论者和参考模型、避免KL散度约束,并解决优势和梯度估计偏差,我们的方法在训练过程中显著简化了与组相对策略优化(GRPO)相比的过程。在不依赖辅助技术或调整的情况下,我们的方法实现了优越的成绩。如图1所示,大量的实验不仅表明我们的方法减少了计算成本,而且在各种单模态和多模态任务中也始终优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获取。