摘要
arXiv:2406.01939v2 宣布类型: 替换
摘要:在某些状态依赖策略下模拟动态系统的一条轨迹是策略优化(PO)算法的核心瓶颈。在单个模拟中必须执行的许多固有的串行策略评估构成了这一瓶颈的主要部分。在将PO应用于供应链优化(SCO)问题时,模拟与一个月的供应链相对应的单一样本路径可能需要几个小时。我们提出了一种加速策略模拟的迭代算法,称为皮卡德迭代。该方案仔细地将策略评估任务分配给独立的过程。在每次迭代中,任何给定的过程只在其分配的任务上评估策略,而对于其他任务则假设一种特定的“缓存”评估;迭代结束时更新缓存。在GPU上实施该方案,允许对单条轨迹上的策略进行批量评估。我们证明,许多SCO问题的结构允许在与时间范围无关的小数量的迭代中收敛。即使使用单个GPU,我们还在大规模SCO问题上实现了400倍的实际加速,并且还在其他RL环境中展示了其实用的有效性。