LLM2D
深度Q网络的万能逼近定理
Universal Approximation Theorem of Deep Q-Networks
作者: Qian Qi
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02288v1

摘要

arXiv:2505.02288v1 类别:交叉学科 摘要: 我们通过随机控制和前向后向随机微分方程(FBSDEs)建立了一个连续时间框架,用于分析深度Q网络(DQNs)。考虑到由平方可积鞅驱动的连续时间马尔可夫决策过程(MDP),我们分析了DQN的逼近性质。我们利用剩余网络逼近定理和状态-动作过程的大偏差界,展示DQNs能够在紧集上以任意精度和高概率逼近最优Q函数。然后,我们分析了在这种情况下训练DQNs的一般Q学习算法的收敛性,调整了随机逼近定理。我们的分析强调了DQN层的数量、时间离散化以及在处理最优Q函数潜在非光滑性时粘性解(主要对于价值函数$V^*$)的作用。这项工作将深度强化学习与随机控制结合起来,为具有物理系统或高频数据的应用提供了关于连续时间环境中DQNs的见解。