LLM2D

摘要

arXiv:2504.02546v1 类型: cross 摘要：强化学习（RL）可以直接增强大规模语言模型的推理能力，而无需大量依赖监督微调（SFT）。在本文中，我们重新审视了传统的策略梯度（PG）机制，并提出了一种名为群体策略梯度（GPG）的极简主义RL方法。与传统方法不同，GPG 直接优化原始的RL目标，从而取消了代理损失函数的使用。如我们在论文中所展示的，通过消除批评者模型和参考模型，并避免使用KL散度约束，我们的方法在与群体相对策略优化（GRPO）相比时，在训练过程中显著简化了流程。我们的方法在无需依赖辅助技术和调整的情况下达到了优越的性能。广泛的实验表明，我们的方法不仅减少了计算成本，而且在各种单模态和多模态任务中都优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获取。