LLM2D

摘要

arXiv:2501.19254v1 宣告类型: cross 摘要: $Q$-学习是强化学习中最基础的算法之一。之前，普遍认为使用线性函数逼近的$Q$-学习（即线性$Q$-学习）可能会产生发散的问题。本文反而确立了线性$Q$-学习到一个有界集合的首个$L^2$收敛速率。值得注意的是，我们没有对原始的线性$Q$-学习算法进行任何修改，没有做出贝尔曼完备性的假设，也没有对行为策略做出接近最优性的假设。我们所需要的是一个具有自适应温度的$\epsilon$-softmax行为策略。我们分析的关键在于在具有马尔可夫噪声和快速变化的转移函数下随机逼近的一般结果。作为副产品，我们还利用这一般结果确立了具有$\epsilon$-softmax行为策略的表形$Q$-学习的$L^2$收敛速率，这里我们依赖于加权贝尔曼最优性算子的一种新颖的拟收缩性质。