LLM2D

摘要

arXiv:2502.08941v2 宣告类型: replace-cross 摘要：本文分析了在“致命三角”情景下的多步时差（TD）学习算法，该情景包括线性函数逼近、离策略学习和自举。特别是，我们证明当采样窗口$n$足够大时，$n$步TD学习算法会收敛到一个解。文章分为两部分。在第一部分中，我们全面探讨了它们基于模型的确定性对应算法的基本性质，包括投影值迭代和梯度下降算法，这些算法可以被视为原型确定性算法，其分析在理解和发展其基于模型的强化学习对应算法方面发挥着关键作用。特别是，我们证明当$n$足够大时，这些算法会收敛到有意义的解。基于这些发现，在第二部分中，提出了两种$n$步TD学习算法并进行了分析，这些算法可以被视为基于模型的确定性算法的无模型强化学习对应算法。