LLM2D

摘要

arXiv:2406.02105v3 公告类型: 替换-交叉摘要：近年来，大量文献集中于“神经网络崩溃”（NC）现象，当神经网络（NN）分类器的训练超越零训练误差点时，这一现象会出现。NC 的核心组成部分是网络最深层特征类内变异性降低，称为 NC1。研究 NC 的理论工作通常基于简化的非约束特征模型（UFMs），这些模型掩盖了数据对崩溃程度的影响。为了解决 UFMs 的这一局限性，本文探讨了使用与浅层神经网络相关的核函数来分析 NC1 的可能性。我们首先将 NC1 指标形式化为核函数的函数。然后，我们将其专门应用于初始化时的相关广义神经过程核（NNGP）以及基于梯度的训练和小学习率条件下的神经连接核（NTK）。作为关键结果，我们展示了在任意维度的高斯数据下，NTK 并不比 NNGP 更接近崩溃特征。这突显了数据无关核函数（如 NTK）在近似 NN 的 NC 行为方面的局限性。作为 NTK 的替代方案，我们通过实验证实了一种最近提出的基于数据的高斯过程核，它可以将 NNGP 通用化以建模特征学习。我们展示了这种核函数的 NC1 值低于 NNGP，但可能不会遵循浅层神经网络的趋势。我们的研究证明了适应数据可能允许基于核的 NC 分析，尽管该领域仍需要进一步的进展。我们的研究还通过理论和实验证明了非线性激活函数的选择影响 NC1（ERF 的值低于 ReLU）。代码可在以下地址获取：https://github.com/kvignesh1420/shallow_nc1