LLM2D
统一的微分方程分析平滑Q学习算法
Unified ODE Analysis of Smooth Q-Learning Algorithms
作者: Donghwan Lee
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2404.14442v3

摘要

arXiv:2404.14442v3 宣告类型: replace-cross 摘要:近几十年来,Q-learning的收敛性一直是研究的重点。最近,使用切换系统框架引入了Q-learning的渐近收敛分析。这种方法采用所谓的常微分方程(ODE)方法来证明异步Q-learning作为连续时间切换系统的收敛性,在其中,切换系统理论中的概念被用来证明其渐近稳定性,而不需要显式的李亚普诺夫论证。然而,为了证明稳定性,必须满足底层切换系统的一些限制条件,如准单调性,这使得将分析方法推广到其他强化学习算法(如光滑Q-learning的变体)变得困难。本文提出了一个更通用和统一的收敛分析方法,改进了切换系统方法,并能够分析Q-learning及其光滑变体。提出的分析方法受到基于$p$范数的同步Q-learning收敛性以前工作的启发,但它解决了可以涵盖异步Q-learning及其更简单的框架中的光滑版本的更一般的ODE模型。