LLM2D
策略梯度方法的强多项式时间与验证分析
Strongly-Polynomial Time and Validation Analysis of Policy Gradient Methods
作者: Caleb Ju, Guanghui Lan
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19437v1

摘要

强化学习缺乏一个原则性的最优性度量,导致研究依赖于算法之间的比较或基线比较,而没有最优性证书。我们专注于有限状态和动作马尔可夫决策过程 (MDP),开发了一个简单且可计算的差距函数,它为最优性差距提供了上限和下限。因此,差距函数的收敛是比最优性差距收敛更强的收敛模式,它等效于我们称之为无分布收敛的新概念,其中收敛与任何问题相关的分布无关。我们证明了基本策略镜像下降在确定性和随机设置中都表现出快速的无分布收敛。我们利用无分布收敛来揭示几个新的结果。首先,确定性策略镜像下降可以在强多项式时间内求解无正则化 MDP。其次,在运行随机策略镜像下降时,无需额外样本即可获得精度估计,并且可以将其用作终止标准,这可以在验证步骤中验证。