摘要
arXiv:2401.15196v3 公告类型:替换
摘要:正则化马尔可夫决策过程是不确定性条件下的序贯决策模型,在这种情况下,决策者的信息处理能力有限,或者对模型模糊性有厌恶感。借助函数近似,正则化MDP(如软Q学习)的学习算法的收敛性质尚不清楚,因为正则化贝尔曼算子与基向量张量空间的投影的复合操作对任何范数都不是压缩的。在本文中,我们考虑具有线性函数近似的正则化Q学习的双层优化形式。低层次优化问题旨在识别满足贝尔曼递归最优性条件的价值函数近似,而高层次则旨在找到基向量张量空间的投影。这种形式促使我们设计出单一循环算法,并提供有限时间收敛保证。该算法在两个时间尺度上运行:状态-动作值的投影更新是“慢”的,因为它们使用的步长小于用于“更快”的贝尔曼递归最优性方程近似解更新所使用的步长。我们证明,在马尔可夫噪声存在下,所提出的算法收敛于一个平稳点。此外,我们还提供了由所提出算法派生的策略的性能保证。