LLM2D

摘要

arXiv:2502.03104v1 类型:跨领域摘要：本文重新审视了最近提出的奖励中心化算法，包括简单的奖励中心化（SRC）和基于价值的奖励中心化（VRC），指出SRC确实是奖励中心化，而VRC本质上是贝尔曼误差中心化（BEC）。基于BEC，我们提供了表值函数的中心化不动点，以及线性值函数逼近的中心化TD不动点。我们设计了在线策略的CTD算法和离线策略的CTDC算法，并证明了两种算法的收敛性。最后，我们通过实验验证了我们提出算法的稳定性。贝尔曼误差中心化促进了各种强化学习算法的扩展。