LLM2D

摘要

arXiv:2301.00922v2 宣告类型: 更改摘要: 我们研究具有“快慢”结构的无限 horizon 马尔可夫决策过程 (MDPs)，其中一些状态变量快速变化（“快态”），而其他状态变量则变化较慢（“慢态”）。这种结构在现实世界问题中很常见，在这些问题中，需要在长时间范围内以高频率作出顺序决策，而缓慢变化的信息也会影响最优决策。这方面的例子包括在需求缓慢变化时的库存控制，或动态定价中消费者行为逐渐变化的情况。以自然的决策频率建模问题会导致折扣因子接近于一的 MDPs，从而使它们变得计算上具有挑战性。我们提出了一种新的近似策略，在较低层次规划阶段“冻结”慢态状态，解决基于固定慢态状态的有限 horizon MDPs，然后应用于随较慢时间尺度演变的辅助上一层 MDP，并使用价值迭代。短暂冻结状态使较低层次的问题更易于解决，而较慢的时间尺度上层允许更有利的折扣因子。从理论角度来看，我们分析了我们的冻结状态方法所引起的机会成本，这导致了关于如何在计算预算与机会成本之间权衡的简单见解。在实验方面，我们展示了冻结状态方法能够生成高质量的策略，而所需的计算量显著减少，并展示了简单忽略慢态状态通常不是一个好的启发式方法。