LLM2D

摘要

表格平均奖励时序差分 (TD) 学习可能是平均奖励强化学习中最简单和最基础的策略评估算法。在它被发现后的至少 25 年后，我们终于能够提供一个期待已久的几乎确定收敛分析。也就是说，我们是第一个证明，在非常温和的条件下，表格平均奖励 TD 几乎可以确定地收敛到一个样本路径相关的固定点。这一成功的关键在于一个新的关于具有马尔可夫和加性噪声的非扩展映射的一般随机逼近结果，该结果建立在最近随机 Krasnoselskii-Mann 迭代方面的进展之上。