LLM2D

摘要

arXiv:2210.05918v3 公告类型: 替换-交叉摘要: 我们研究了当结合尾平均时，流行的时序差分（TD）学习算法的有限时间行为。我们在不依赖于投影TD固定点矩阵特征值信息的步长选择下，推导了尾平均TD迭代参数误差的有限时间界限。我们的分析表明，尾平均TD在期望和概率上均以最优的$O\left(1/t\right)$速率收敛。此外，我们的界限显示了初始误差（偏差）的更快衰减速率，这是对平均所有迭代的改进。我们还提出并分析了一种包含正则化的TD变体。从分析中，我们得出结论，正则化版本的TD对于特征条件数较差的问题是有用的。