LLM2D
Home
Arxiv
返回列表
平均奖励时序差分学习的几乎必然收敛性
Almost Sure Convergence of Average Reward Temporal Difference Learning
作者:
Ethan Blaser, Shangtong Zhang
发布日期:
10/1/2024
arXiv ID:
oai:arXiv.org:2409.19546v2
摘要
表格平均奖励时序差分 (TD) 学习可能是平均奖励强化学习中最简单、最基础的策略评估算法。在它被发现的 25 年后,我们终于能够提供一个期待已久的几乎肯定收敛分析。也就是说,我们是第一个证明在非常温和的条件下,表格平均奖励 TD 几乎肯定收敛到一个样本路径相关的固定点。这一成功的关键在于一个新的关于具有马尔可夫和加性噪声的非扩张映射的通用随机逼近结果,该结果建立在随机 Krasnoselskii-Mann 迭代的最新进展之上。
查看原文
下载 PDF