LLM2D

摘要

arXiv:2505.02288v1 类别:交叉学科摘要: 我们通过随机控制和前向后向随机微分方程（FBSDEs）建立了一个连续时间框架，用于分析深度Q网络（DQNs）。考虑到由平方可积鞅驱动的连续时间马尔可夫决策过程（MDP），我们分析了DQN的逼近性质。我们利用剩余网络逼近定理和状态-动作过程的大偏差界，展示DQNs能够在紧集上以任意精度和高概率逼近最优Q函数。然后，我们分析了在这种情况下训练DQNs的一般Q学习算法的收敛性，调整了随机逼近定理。我们的分析强调了DQN层的数量、时间离散化以及在处理最优Q函数潜在非光滑性时粘性解（主要对于价值函数$V^*$）的作用。这项工作将深度强化学习与随机控制结合起来，为具有物理系统或高频数据的应用提供了关于连续时间环境中DQNs的见解。