LLM2D
Home
Arxiv
返回列表
非扩张随机近似算法的渐近与有限样本分析(带马尔可夫噪声)
Asymptotic and Finite Sample Analysis of Nonexpansive Stochastic Approximations with Markovian Noise
作者:
Ethan Blaser, Shangtong Zhang
发布日期:
2/5/2025
arXiv ID:
2409.19546
摘要
arXiv:2409.19546v4 宣布类型: 替换-交叉 摘要:随机逼近是一类重要的算法,此前大量的分析主要集中于由压缩算子驱动的随机逼近,但在某些重要的强化学习设置中并不适用。本项工作转而研究仅由非扩张算子驱动的随机逼近。特别是,我们研究具有马尔可夫噪声的非扩张随机逼近,并提供了渐近和有限样本分析。分析的关键在于从泊松方程得出的噪声项的一些新颖界。作为应用,我们首次证明经典的表格平均奖励时移学习收敛到一条样本路径相关的固定点。
查看原文
下载 PDF