摘要
arXiv:2404.14442v3 宣告类型: replace-cross
摘要:近几十年来,Q-learning的收敛性一直是研究的重点。最近,使用切换系统框架引入了Q-learning的渐近收敛分析。这种方法采用所谓的常微分方程(ODE)方法来证明异步Q-learning作为连续时间切换系统的收敛性,在其中,切换系统理论中的概念被用来证明其渐近稳定性,而不需要显式的李亚普诺夫论证。然而,为了证明稳定性,必须满足底层切换系统的一些限制条件,如准单调性,这使得将分析方法推广到其他强化学习算法(如光滑Q-learning的变体)变得困难。本文提出了一个更通用和统一的收敛分析方法,改进了切换系统方法,并能够分析Q-learning及其光滑变体。提出的分析方法受到基于$p$范数的同步Q-learning收敛性以前工作的启发,但它解决了可以涵盖异步Q-learning及其更简单的框架中的光滑版本的更一般的ODE模型。