LLM2D

摘要

arXiv:2504.05150v2 Announce Type: replace-cross 摘要：本文提出了后决策近端策略优化（Post-Decision Proximal Policy Optimization，PDPPO），这是一种对当前领先的深度强化学习方法——近端策略优化（Proximal Policy Optimization，PPO）的新变种。PDPPO的状态转换过程分为两个步骤：一个确定性步骤，导致后决策状态；一个随机步骤，导致下一个状态。我们的方法结合了后决策状态和双重评论家，以降低问题的维度并提高价值函数估计的准确性。批量大小是指令批次优化问题，我们以此为例来说明这种动态。批量大小的目标是在不确定的需求和成本参数下，优化生产、交付履行和库存水平。本文评估了PDPPO在各种环境和配置中的性能。值得注意的是，在特定场景中，PDPPO与双重评论家结构相比，几乎可以达到 vanilla PPO 的最大奖励的两倍，需要更少的回合迭代，并且在不同的初始条件下表现出更快且更一致的学习速度。平均而言，在状态转换具有随机性特征的环境中，PDPPO 比 PPO 表现更好。这些结果支持使用后决策状态的好处。将这种后决策状态集成到价值函数逼近中，可以在高维和随机环境中实现更加明智和高效的学习。