LLM2D

摘要

arXiv:2502.01652v1 宣告类型: cross 摘要: Hybrid Group Relative Policy Optimization (Hybrid GRPO) 是一个扩展了Proximal Policy Optimization (PPO) 和Group Relative Policy Optimization (GRPO) 的强化学习框架，通过引入经验多样本行动评估来扩展PPO和GRPO，同时保持基于值函数学习的稳定性。与DeepSeek GRPO不同，后者为了纯粹的经验奖励估计而取消了值函数，Hybrid GRPO引入了一种结构化的优势计算方法，将经验行动采样与bootstrap值估计相平衡。这种方法增强了样本效率，改善了学习稳定性，并减轻了纯粹经验方法中观察到的方差放大。详细比较了PPO、DeepSeek GRPO和Hybrid GRPO之间的数学差异，突出了优势估计和策略更新的关键差异。在受控的强化学习环境中进行的实验验证表明，Hybrid GRPO在收敛速度、策略更新的稳定性以及样本效率方面优于现有方法。Hybrid GRPO还探索了几种扩展方法，包括熵正则化采样、层次多步亚采样、自适应奖励标准化和基于值的行动选择。除了在模拟环境中的强化学习之外，Hybrid GRPO提供了一种可扩展的框架，以弥合大型语言模型（LLMs）与基于代理的真实世界决策之间的差距。通过将结构化经验采样与强化学习稳定性机制相结合，Hybrid GRPO在自主机器人技术、金融建模和AI驱动的控制系统中有潜在应用。这些发现表明，Hybrid GRPO作为一种强大且适应性强的强化学习方法，为策略优化的进一步发展铺平了道路。