LLM2D

摘要

arXiv:2502.01652v1 交叉类型：公告摘要：Hybrid Group Relative Policy Optimization (Hybrid GRPO) 是一种强化学习框架，它将 Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO) 扩展为结合经验多抽样动作评估，同时保持基于价值函数学习的稳定性。与 DeepSeek GRPO 不同，DeepSeek GRPO 为了纯经验奖励估计而消除了价值函数。Hybrid GRPO 引入了一种结构化的优势计算方法，平衡了经验动作采样与更新价值函数的方法。这种方法增强了样本效率、提高了学习稳定性，并缓解了纯经验方法中观察到的方差放大问题。详细介绍了 PPO、DeepSeek GRPO 和 Hybrid GRPO 之间的数学比较，突出了优势估计和策略更新中的关键差异。在受控的强化学习环境中进行的实验验证表明，Hybrid GRPO 较现有方法实现了更快的收敛速度、更稳定的策略更新和更高的样本效率。对 Hybrid GRPO 进行了多个扩展，包括熵正则化采样、分层多步子抽样、自适应奖励归一化和基于价值的动作选择。Beyond 在模拟环境中的强化学习之外，Hybrid GRPO 提供了一个可扩展的框架，用于弥合大规模语言模型（LLMs）和基于代理的真实世界决策之间的差距。通过将结构化经验采样与强化学习的稳定性机制集成，Hybrid GRPO 具有在自主机器人、金融建模和基于 AI 的控制系统中的潜在应用。这些发现表明，Hybrid GRPO 作为一种稳健和适应性强的强化学习方法，为策略优化的进一步发展奠定了基础。