LLM2D
分类问题中经验神经 tangent 核的发散性
Divergence of Empirical Neural Tangent Kernel in Classification Problems
作者: Zixiong Yu, Songtao Tian, Guhan Chen
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11130v1

摘要

arXiv:2504.11130v1 类型: cross 摘要: 本文表明,在分类问题中,完全连接的神经网络(FCNs)和残差神经网络(ResNets)无法通过神经 tangent 核(NTK)基于核逻辑回归近似,在过拟合的情况下(即,当训练时间趋向无穷大时)。具体来说,使用交叉熵损失时,无论网络宽度有多宽(只要它是有限的),经验 NTK 会在训练时间增加时与训练样本上的 NTK 发散。为了得出这一结果,我们首先证明了多层 FCNs 和 ResNets 的 NTK 的严格正定性。然后,我们证明,在使用交叉熵损失的情况下,如果训练样本上经验 NTK 矩阵(格兰姆矩阵)的最小特征值被某个正常数下界限制,则神经网络参数在训练过程中会发散。这种行为与回归问题中通常观察到的懒惰训练阶段形成了鲜明对比。因此,通过反证法,我们展示出当网络宽度增加时,经验 NTK 在训练样本上不能均匀收敛到 NTK。我们通过在合成数据和 MNIST 分类任务上的实验证明了我们的理论结果。这一发现表明,NTK 理论在此情境下不适用,对理解分类问题中的神经网络具有重要的理论意义。