LLM2D
基于回步法的时间差分学习
Backstepping Temporal Difference Learning
作者: Han-Dong Lim, Donghwan Lee
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2302.09875v3

摘要

arXiv:2302.09875v3 宣告类型: replace-cross 摘要:离策学习能力是 reinforcement learning (RL) 在实际应用中的一个重要特征。然而,即使是其中最基本的 RL 算法——时序差分(TD)学习,在使用线性函数近似时与离策方案结合使用时,也会遭受发散问题。为了克服这种发散行为,至今已经开发出了多种离策 TD 学习算法,包括梯度时序差分学习(GTD)和修正时序差分学习(TDC)。在本文中,我们从纯粹的控制理论视角出发,提供了一种这些算法的统一视图,并提出了一种新的收敛算法。我们的方法依赖于回步法技术,这是一种在非线性控制理论中广泛使用的技术。最后,在标准 TD 学习已知不稳定的环境中,通过实验验证了所提出算法的收敛性。