摘要
arXiv:2301.00922v2 宣告类型: 更改
摘要: 我们研究具有“快慢”结构的无限 horizon 马尔可夫决策过程 (MDPs),其中一些状态变量快速变化(“快态”),而其他状态变量则变化较慢(“慢态”)。这种结构在现实世界问题中很常见,在这些问题中,需要在长时间范围内以高频率作出顺序决策,而缓慢变化的信息也会影响最优决策。这方面的例子包括在需求缓慢变化时的库存控制,或动态定价中消费者行为逐渐变化的情况。以自然的决策频率建模问题会导致折扣因子接近于一的 MDPs,从而使它们变得计算上具有挑战性。我们提出了一种新的近似策略,在较低层次规划阶段“冻结”慢态状态,解决基于固定慢态状态的有限 horizon MDPs,然后应用于随较慢时间尺度演变的辅助上一层 MDP,并使用价值迭代。短暂冻结状态使较低层次的问题更易于解决,而较慢的时间尺度上层允许更有利的折扣因子。从理论角度来看,我们分析了我们的冻结状态方法所引起的机会成本,这导致了关于如何在计算预算与机会成本之间权衡的简单见解。在实验方面,我们展示了冻结状态方法能够生成高质量的策略,而所需的计算量显著减少,并展示了简单忽略慢态状态通常不是一个好的启发式方法。