摘要
arXiv:2502.08941v1 类型: cross
摘要: 本文分析了在“致命三角”场景下的多步时差(TD)-学习算法,该场景包括线性函数近似、离策学习和自助学习。特别地,我们证明随着采样时间窗\(n\)的充分增大,\(n\)步TD学习算法会收敛到一个解。本文分为两个部分。在第一部分中,我们全面研究了它们基于模型的确定性对应算法的基本性质,包括投影价值迭代、梯度下降算法,这些算法可以视为原型确定性算法,其分析对理解和开发其基于模型的自由强化学习对应算法起着关键作用。特别地,我们证明当\(n\)足够大时,这些算法会收敛到有意义的解。基于这些发现,在第二部分中,提出了两种\(n\)步TD学习算法并进行了分析,这些算法可以被视为基于模型的确定性算法的基于模型的自由强化学习对应算法。