LLM2D
霍华德的策略迭代对于具有固定位数奖励和任意折现因子的确定性马尔可夫决策问题的时间复杂性不是指数级的
Howard's Policy Iteration is Subexponential for Deterministic Markov Decision Problems with Rewards of Fixed Bit-size and Arbitrary Discount Factor
作者: Dibyangshu Mukherjee, Shivaram Kalyanakrishnan
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00795v1

摘要

arXiv:2505.00795v1 宣告类型: 新 摘要: Howard的策略迭代(HPI)是解决马尔可夫决策过程(MDPs)的经典算法。HPI 使用一种“贪婪” 的切换规则,从任意非最优策略更新到一个支配的策略,直到找到最优策略为止。尽管该算法在六十年前被提出,HPI 的运行时间的最佳已知上界仍然呈指数级增长,甚至在只包含确定性转换的 MDP 类(DMDPs)中也是如此。与此同时,对于每状态只有固定数量动作的 MDPs,HPI 的最紧低界仅为线性。在本文中,我们报告了一个显著的改进:对于 DMDPs 的 HPI,存在一个次指数级的上界,该上界依赖于奖励的位数,而与折扣因子无关。同样的上界也适用于只有两种可能奖励(其大小可任意)的 DMDPs。