LLM2D

摘要

表格平均奖励时序差分 (TD) 学习可能是平均奖励强化学习中最简单、最基础的策略评估算法。在它被发现的 25 年后，我们终于能够提供一个期待已久的几乎肯定收敛分析。也就是说，我们是第一个证明在非常温和的条件下，表格平均奖励 TD 几乎肯定收敛到一个样本路径相关的固定点。这一成功的关键在于一个新的关于具有马尔可夫和加性噪声的非扩张映射的通用随机逼近结果，该结果建立在随机 Krasnoselskii-Mann 迭代的最新进展之上。