LLM2D

摘要

arXiv:2504.05150v1 类别: cross 摘要: 本文提出了后决策近端策略优化(PDPPO),这是一种对领先的深度强化学习方法近端策略优化(PPO)的新变体。PDPPO的状态转移过程分为两个步骤:一个确定性步骤,产生后决策状态,以及一个随机步骤,导致下一个状态。我们的方法结合了后决策状态和双重评论家来降低问题的维度,并提高价值函数估计的准确性。批量大小设置是一个混合整数规划问题,我们通过此类动态进行说明。批量大小设置的目标是在不确定的需求和成本参数下,优化生产、交付履行和库存水平。本文评估了PDPPO在各种环境和配置中的性能。值得注意的是,在特定场景下,具有双重评论家结构的PDPPO的最高奖励几乎是标准PPO的两倍,且需要更少的时期迭代,并展示了在不同初始化条件下的更快和更稳定的学习。在状态转移具有随机性的环境中,PDPPO的平均性能优于PPO。这些结果支持使用后决策状态的好处。将后决策状态整合到价值函数近似中,在高维度和随机环境中可以实现更明智和高效的的学习。