摘要
arXiv:2502.01652v1 宣告类型: cross
摘要: Hybrid Group Relative Policy Optimization (Hybrid GRPO) 是一个扩展了Proximal Policy Optimization (PPO) 和Group Relative Policy Optimization (GRPO) 的强化学习框架,通过引入经验多样本行动评估来扩展PPO和GRPO,同时保持基于值函数学习的稳定性。与DeepSeek GRPO不同,后者为了纯粹的经验奖励估计而取消了值函数,Hybrid GRPO引入了一种结构化的优势计算方法,将经验行动采样与bootstrap值估计相平衡。这种方法增强了样本效率,改善了学习稳定性,并减轻了纯粹经验方法中观察到的方差放大。详细比较了PPO、DeepSeek GRPO和Hybrid GRPO之间的数学差异,突出了优势估计和策略更新的关键差异。在受控的强化学习环境中进行的实验验证表明,Hybrid GRPO在收敛速度、策略更新的稳定性以及样本效率方面优于现有方法。Hybrid GRPO还探索了几种扩展方法,包括熵正则化采样、层次多步亚采样、自适应奖励标准化和基于值的行动选择。除了在模拟环境中的强化学习之外,Hybrid GRPO提供了一种可扩展的框架,以弥合大型语言模型(LLMs)与基于代理的真实世界决策之间的差距。通过将结构化经验采样与强化学习稳定性机制相结合,Hybrid GRPO在自主机器人技术、金融建模和AI驱动的控制系统中有潜在应用。这些发现表明,Hybrid GRPO作为一种强大且适应性强的强化学习方法,为策略优化的进一步发展铺平了道路。