LLM2D

摘要

arXiv:2302.09875v3 宣告类型: replace-cross 摘要：离策学习能力是 reinforcement learning (RL) 在实际应用中的一个重要特征。然而，即使是其中最基本的 RL 算法——时序差分（TD）学习，在使用线性函数近似时与离策方案结合使用时，也会遭受发散问题。为了克服这种发散行为，至今已经开发出了多种离策 TD 学习算法，包括梯度时序差分学习（GTD）和修正时序差分学习（TDC）。在本文中，我们从纯粹的控制理论视角出发，提供了一种这些算法的统一视图，并提出了一种新的收敛算法。我们的方法依赖于回步法技术，这是一种在非线性控制理论中广泛使用的技术。最后，在标准 TD 学习已知不稳定的环境中，通过实验验证了所提出算法的收敛性。