LLM2D

摘要

arXiv:2409.06356v2 宣布类型: replace-cross 摘要：Q-learning 是强化学习（RL）中广泛使用的一种算法，但在折扣因子接近 1 时，其收敛速度可能会很慢。为了加快收敛速度，不断超松弛（SOR）Q-learning 引入了一个松弛因子，但这种方法存在两个主要局限性：在表格形式下，松弛参数依赖于转移概率，使其不能完全模型无关，且存在过度估算偏差。为克服这些局限性，我们提出了一种基于样本、模型无关的双重 SOR Q-learning 算法。理论上和实验上，该算法相较于 SOR Q-learning 更少有偏差。此外，在表格形式下，在迭代结果有界假设下讨论了收敛分析。提出的算法扩展到了大规模问题的深度 RL 中。最后，在轮盘游戏和网格世界环境中比较了所提算法的表格版本，并测试了深度 RL 版本在最大化偏差示例和 OpenAI Gym 环境中的表现。