LLM2D
核方法能解释数据如何导致神经网络崩溃吗?
Can Kernel Methods Explain How the Data Affects Neural Collapse?
作者: Vignesh Kothapalli, Tom Tirer
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2406.02105v3

摘要

arXiv:2406.02105v3 公告类型: 替换-交叉 摘要:近年来,大量文献集中于“神经网络崩溃”(NC)现象,当神经网络(NN)分类器的训练超越零训练误差点时,这一现象会出现。NC 的核心组成部分是网络最深层特征类内变异性降低,称为 NC1。研究 NC 的理论工作通常基于简化的非约束特征模型(UFMs),这些模型掩盖了数据对崩溃程度的影响。为了解决 UFMs 的这一局限性,本文探讨了使用与浅层神经网络相关的核函数来分析 NC1 的可能性。我们首先将 NC1 指标形式化为核函数的函数。然后,我们将其专门应用于初始化时的相关广义神经过程核(NNGP)以及基于梯度的训练和小学习率条件下的神经连接核(NTK)。作为关键结果,我们展示了在任意维度的高斯数据下,NTK 并不比 NNGP 更接近崩溃特征。这突显了数据无关核函数(如 NTK)在近似 NN 的 NC 行为方面的局限性。作为 NTK 的替代方案,我们通过实验证实了一种最近提出的基于数据的高斯过程核,它可以将 NNGP 通用化以建模特征学习。我们展示了这种核函数的 NC1 值低于 NNGP,但可能不会遵循浅层神经网络的趋势。我们的研究证明了适应数据可能允许基于核的 NC 分析,尽管该领域仍需要进一步的进展。我们的研究还通过理论和实验证明了非线性激活函数的选择影响 NC1(ERF 的值低于 ReLU)。代码可在以下地址获取:https://github.com/kvignesh1420/shallow_nc1