LLM2D
理解投影贝尔曼方程、线性Q学习和近似价值迭代的理论性质
Understanding the theoretical properties of projected Bellman equation, linear Q-learning, and approximate value iteration
作者: Han-Dong Lim, Donghwan Lee
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10865v1

摘要

arXiv:2504.10865v1 宣告类型: 新 摘要: 在本文中,我们研究了投影贝尔曼方程(PBE)及其求解该方程的两种算法:线性Q学习和近似值迭代(AVI)的理论性质。我们考虑了PBE解存在的两个充分条件:严格负行占优对角(SNRDD)假设以及由AVI收敛性启发的一个条件。SNRDD假设还确保了线性Q学习的收敛性,我们还探讨了其与AVI收敛性之间的关系。最后,我们提供了在使用ε-贪心策略时PBE解的一些有趣观察。