LLM2D

摘要

表格平均奖励时序差分 (TD) 学习可能是平均奖励强化学习中最简单也是最基础的策略评估算法。自其发现至今已有 25 年之久，我们终于能够提供其长期期待的几乎必然收敛性分析。具体来说，我们是第一个证明在非常温和的条件下，表格平均奖励 TD 几乎必然收敛到一个样本路径相关的固定点。这项成功的关键在于一个新的关于具有马尔可夫和加性噪声的非扩张映射的一般随机逼近结果，该结果建立在随机 Krasnoselskii-Mann 迭代的最新进展之上。