LLM2D
线性函数逼近下时序差分学习的有限时间分析:尾平均与正则化
Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2210.05918v3

摘要

arXiv:2210.05918v3 公告类型: 替换-交叉 摘要: 我们研究了当结合尾平均时,流行的时序差分(TD)学习算法的有限时间行为。我们在不依赖于投影TD固定点矩阵特征值信息的步长选择下,推导了尾平均TD迭代参数误差的有限时间界限。我们的分析表明,尾平均TD在期望和概率上均以最优的$O\left(1/t\right)$速率收敛。此外,我们的界限显示了初始误差(偏差)的更快衰减速率,这是对平均所有迭代的改进。我们还提出并分析了一种包含正则化的TD变体。从分析中,我们得出结论,正则化版本的TD对于特征条件数较差的问题是有用的。