LLM2D

摘要

arXiv:2504.11130v1 类型: cross 摘要: 本文表明，在分类问题中，完全连接的神经网络（FCNs）和残差神经网络（ResNets）无法通过神经 tangent 核（NTK）基于核逻辑回归近似，在过拟合的情况下（即，当训练时间趋向无穷大时）。具体来说，使用交叉熵损失时，无论网络宽度有多宽（只要它是有限的），经验 NTK 会在训练时间增加时与训练样本上的 NTK 发散。为了得出这一结果，我们首先证明了多层 FCNs 和 ResNets 的 NTK 的严格正定性。然后，我们证明，在使用交叉熵损失的情况下，如果训练样本上经验 NTK 矩阵（格兰姆矩阵）的最小特征值被某个正常数下界限制，则神经网络参数在训练过程中会发散。这种行为与回归问题中通常观察到的懒惰训练阶段形成了鲜明对比。因此，通过反证法，我们展示出当网络宽度增加时，经验 NTK 在训练样本上不能均匀收敛到 NTK。我们通过在合成数据和 MNIST 分类任务上的实验证明了我们的理论结果。这一发现表明，NTK 理论在此情境下不适用，对理解分类问题中的神经网络具有重要的理论意义。