摘要
arXiv:2504.02546v1 类型: cross
摘要:强化学习(RL)可以直接增强大规模语言模型的推理能力,而无需大量依赖监督微调(SFT)。在本文中,我们重新审视了传统的策略梯度(PG)机制,并提出了一种名为群体策略梯度(GPG)的极简主义RL方法。与传统方法不同,GPG 直接优化原始的RL目标,从而取消了代理损失函数的使用。如我们在论文中所展示的,通过消除批评者模型和参考模型,并避免使用KL散度约束,我们的方法在与群体相对策略优化(GRPO)相比时,在训练过程中显著简化了流程。我们的方法在无需依赖辅助技术和调整的情况下达到了优越的性能。广泛的实验表明,我们的方法不仅减少了计算成本,而且在各种单模态和多模态任务中都优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获取。