摘要
arXiv:2306.09746v2 更新类型: 替换-交叉
摘要: 前向差分(TD)学习通常被认为是强化学习(RL)中最受欢迎的算法之一。尽管它的应用非常广泛,但直到最近,研究人员才开始积极研究其在有限时间内的行为,包括均方误差和样本复杂度的有限时间界。在经验上,经验重放一直是深度RL算法成功的关键因素,但其对RL的理论影响尚未完全理解。在本文中,我们提供了一个简化的马尔可夫噪声项分解,并为带有经验重放的TD学习提供了有限时间错误界。具体而言,在马尔可夫观察模型下,我们证明了对于平均迭代和最终迭代两种情况,常数步长引起的误差可以通过回放缓冲区的大小以及从经验回放缓冲区中抽取的微型批量来有效控制。