摘要
arXiv:2210.05918v3 公告类型: 替换-交叉 摘要: 我们研究了当结合尾平均时,流行的时序差分(TD)学习算法的有限时间行为。我们在不依赖于投影TD固定点矩阵特征值信息的步长选择下,推导了尾平均TD迭代参数误差的有限时间界限。我们的分析表明,尾平均TD在期望和概率上均以最优的$O\left(1/t\right)$速率收敛。此外,我们的界限显示了初始误差(偏差)的更快衰减速率,这是对平均所有迭代的改进。我们还提出并分析了一种包含正则化的TD变体。从分析中,我们得出结论,正则化版本的TD对于特征条件数较差的问题是有用的。