LLM2D

摘要

arXiv:2505.06023v1 类型:交叉摘要：深度Q网络（DQNs）的逼近能力通常通过通用的普遍逼近定理（UATs）来证明，这些定理并未利用最优Q函数的内在结构特性，最优Q函数是贝尔曼方程的解。本文为一类具有模仿贝尔曼更新内在迭代精细化过程的体系结构的DQNs建立了UAT。分析的核心要素是正则性的传播：虽然单个贝尔曼算子的应用表现出正则性，这种性质可以通过倒向随机微分方程（BSDEs）理论提供分析工具，但整个价值迭代序列的统一正则性——具体而言，在标准问题数据的Lipschitz假设下，这些值迭代的具体迭代在紧致域上的统一Lipschitz连续性——是从有限时间区间的动力学编程原理中推导出来的。我们展示了作为一个作用在函数空间上的神经算子的深度残差网络的层可以逼近贝尔曼算子的作用。由此产生的逼近定理本质上与控制问题的结构相关，提供了一种网络深度直接对应于价值函数细化迭代的证明技术，并伴有受控的误差传播。这种视角揭示了网络在价值函数空间上的操作具有动态系统的观点。