LLM2D

摘要

arXiv:2504.10865v1 宣告类型: 新摘要: 在本文中，我们研究了投影贝尔曼方程(PBE)及其求解该方程的两种算法：线性Q学习和近似值迭代(AVI)的理论性质。我们考虑了PBE解存在的两个充分条件：严格负行占优对角(SNRDD)假设以及由AVI收敛性启发的一个条件。SNRDD假设还确保了线性Q学习的收敛性，我们还探讨了其与AVI收敛性之间的关系。最后，我们提供了在使用ε-贪心策略时PBE解的一些有趣观察。