LLM2D
Home
Arxiv
返回列表
非扩张随机逼近的渐近与有限样本分析,带有马尔可夫噪声
Asymptotic and Finite Sample Analysis of Nonexpansive Stochastic Approximations with Markovian Noise
作者:
Ethan Blaser, Shangtong Zhang
发布日期:
2/5/2025
arXiv ID:
oai:arXiv.org:2409.19546v4
摘要
arXiv:2409.19546v4 说明类型: replace-cross 摘要:随机逼近是一类重要的算法,此前大量分析主要集中在由收缩算子驱动的随机逼近上,但在某些重要的强化学习设置中并不适用。本文则针对仅由非扩张算子驱动的随机逼近进行研究。特别地,我们研究了具有马尔可夫噪声的非扩张随机逼近,提供了渐近和有限样本分析。我们分析的关键在于泊松方程噪声项的一些新颖界。作为应用,我们首次证明,经典的基于表的平均奖励时差学习收敛到一条样本路径依赖的固定点。
查看原文
下载 PDF