LLM2D
带有随机变量的环境的强化学习方法:基于决策的双重评论网络 proximal 策略优化算法
A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks
作者: Leonardo Kanashiro Felizardo, Edoardo Fadda, Paolo Brandimarte, Emilio Del-Moral-Hernandez, Mari\'a Cristina Vasconcelos Nascimento
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.05150v2

摘要

arXiv:2504.05150v2 Announce Type: replace-cross 摘要:本文提出了后决策近端策略优化(Post-Decision Proximal Policy Optimization,PDPPO),这是一种对当前领先的深度强化学习方法——近端策略优化(Proximal Policy Optimization,PPO)的新变种。PDPPO的状态转换过程分为两个步骤:一个确定性步骤,导致后决策状态;一个随机步骤,导致下一个状态。我们的方法结合了后决策状态和双重评论家,以降低问题的维度并提高价值函数估计的准确性。批量大小是指令批次优化问题,我们以此为例来说明这种动态。批量大小的目标是在不确定的需求和成本参数下,优化生产、交付履行和库存水平。本文评估了PDPPO在各种环境和配置中的性能。值得注意的是,在特定场景中,PDPPO与双重评论家结构相比,几乎可以达到 vanilla PPO 的最大奖励的两倍,需要更少的回合迭代,并且在不同的初始条件下表现出更快且更一致的学习速度。平均而言,在状态转换具有随机性特征的环境中,PDPPO 比 PPO 表现更好。这些结果支持使用后决策状态的好处。将这种后决策状态集成到价值函数逼近中,可以在高维和随机环境中实现更加明智和高效的学习。