LLM2D
贝尔曼误差中心化
Bellman Error Centering
作者: Xingguo Chen, Yu Gong, Shangdong Yang, Wenhao Wang
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.03104v1

摘要

arXiv:2502.03104v1 类型:跨领域 摘要:本文重新审视了最近提出的奖励中心化算法,包括简单的奖励中心化(SRC)和基于价值的奖励中心化(VRC),指出SRC确实是奖励中心化,而VRC本质上是贝尔曼误差中心化(BEC)。基于BEC,我们提供了表值函数的中心化不动点,以及线性值函数逼近的中心化TD不动点。我们设计了在线策略的CTD算法和离线策略的CTDC算法,并证明了两种算法的收敛性。最后,我们通过实验验证了我们提出算法的稳定性。贝尔曼误差中心化促进了各种强化学习算法的扩展。