LLM2D

摘要

arXiv:2505.04898v1 宣告类型: cross 摘要: 在本文中，我们提供了在有限宽度比例状态下的一般多层神经网络在标准单一索引回归模型下梯度下降迭代的首个精确分布特征。在样本大小和特征维度呈比例增长而网络宽度和深度保持有界的情况下，我们的非渐近态演化理论捕捉了一层权重的高斯波动和深层权重的集中趋势，并且适用于非高斯特征。我们的理论在几个关键方面不同于现有的神经 tangent 核(NTK)、均场(MF)理论和张量程序(TP)。首先，我们的理论在有限宽度范围内运作，而现有的这些理论本质上是无限宽度的。其次，我们的理论允许权重从单独的初始化演变，超越了懒惰训练阶段，而 NTK 和 MF 或者固定在初始化上，或者对初始化只有弱敏感性，TP 依赖于特殊初始化方案。第三，我们的理论不仅在一致收敛范围内，而且在一般多层神经网络中对训练和泛化误差进行特征描述，而现有的理论几乎仅在两层设置中研究泛化问题。作为一种统计应用，我们展示了 vanilla 梯度下降可以通过增加辅助方法在每次迭代中提供一致的泛化误差估计，这些估计可以用于指导早期停止和超参数调整。作为一种进一步的理论推论，我们展示了即使模型存在误指定，梯度下降学习的模型仍然保留了单一索引函数的结构，其有效信号由真实信号和初始化的线性组合确定。