LLM2D

摘要

arXiv:2504.02546v2 宣告类型: replace-cross 摘要：强化学习（RL）可以直接增强大型语言模型的推理能力，而无需大量依赖监督微调（SFT）。在本文中，我们重新审视了传统的策略梯度（PG）机制，并提出了一种简化的RL方法，称为组策略梯度（GPG）。与传统方法不同，GPG 直接优化原始的RL目标，因此无需使用代理损失函数。通过消除评论者和参考模型、避免KL散度约束，并解决优势和梯度估计偏差，我们的方法在训练过程中显著简化了与组相对策略优化（GRPO）相比的过程。在不依赖辅助技术或调整的情况下，我们的方法实现了优越的成绩。如图1所示，大量的实验不仅表明我们的方法减少了计算成本，而且在各种单模态和多模态任务中也始终优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获取。