LLM2D

摘要

arXiv:2404.14442v3 宣告类型: replace-cross 摘要：近几十年来，Q-learning的收敛性一直是研究的重点。最近，使用切换系统框架引入了Q-learning的渐近收敛分析。这种方法采用所谓的常微分方程（ODE）方法来证明异步Q-learning作为连续时间切换系统的收敛性，在其中，切换系统理论中的概念被用来证明其渐近稳定性，而不需要显式的李亚普诺夫论证。然而，为了证明稳定性，必须满足底层切换系统的一些限制条件，如准单调性，这使得将分析方法推广到其他强化学习算法（如光滑Q-learning的变体）变得困难。本文提出了一个更通用和统一的收敛分析方法，改进了切换系统方法，并能够分析Q-learning及其光滑变体。提出的分析方法受到基于$p$范数的同步Q-learning收敛性以前工作的启发，但它解决了可以涵盖异步Q-learning及其更简单的框架中的光滑版本的更一般的ODE模型。