LLM2D
混合组相对策略优化:一种增强策略优化的多样本方法
Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization
作者: Soham Sane
发布日期: 2/5/2025
arXiv ID: 2502.01652

摘要

arXiv:2502.01652v1 交叉类型:公告 摘要:Hybrid Group Relative Policy Optimization (Hybrid GRPO) 是一种强化学习框架,它将 Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO) 扩展为结合经验多抽样动作评估,同时保持基于价值函数学习的稳定性。与 DeepSeek GRPO 不同,DeepSeek GRPO 为了纯经验奖励估计而消除了价值函数。Hybrid GRPO 引入了一种结构化的优势计算方法,平衡了经验动作采样与更新价值函数的方法。这种方法增强了样本效率、提高了学习稳定性,并缓解了纯经验方法中观察到的方差放大问题。详细介绍了 PPO、DeepSeek GRPO 和 Hybrid GRPO 之间的数学比较,突出了优势估计和策略更新中的关键差异。在受控的强化学习环境中进行的实验验证表明,Hybrid GRPO 较现有方法实现了更快的收敛速度、更稳定的策略更新和更高的样本效率。对 Hybrid GRPO 进行了多个扩展,包括熵正则化采样、分层多步子抽样、自适应奖励归一化和基于价值的动作选择。Beyond 在模拟环境中的强化学习之外,Hybrid GRPO 提供了一个可扩展的框架,用于弥合大规模语言模型(LLMs)和基于代理的真实世界决策之间的差距。通过将结构化经验采样与强化学习的稳定性机制集成,Hybrid GRPO 具有在自主机器人、金融建模和基于 AI 的控制系统中的潜在应用。这些发现表明,Hybrid GRPO 作为一种稳健和适应性强的强化学习方法,为策略优化的进一步发展奠定了基础。