摘要
arXiv:2409.06356v2 宣布类型: replace-cross
摘要:Q-learning 是强化学习(RL)中广泛使用的一种算法,但在折扣因子接近 1 时,其收敛速度可能会很慢。为了加快收敛速度,不断超松弛(SOR)Q-learning 引入了一个松弛因子,但这种方法存在两个主要局限性:在表格形式下,松弛参数依赖于转移概率,使其不能完全模型无关,且存在过度估算偏差。为克服这些局限性,我们提出了一种基于样本、模型无关的双重 SOR Q-learning 算法。理论上和实验上,该算法相较于 SOR Q-learning 更少有偏差。此外,在表格形式下,在迭代结果有界假设下讨论了收敛分析。提出的算法扩展到了大规模问题的深度 RL 中。最后,在轮盘游戏和网格世界环境中比较了所提算法的表格版本,并测试了深度 RL 版本在最大化偏差示例和 OpenAI Gym 环境中的表现。