LLM2D

摘要

现代深度神经网络（NN）的训练策略倾向于在层权重中诱导出重尾（HT）经验谱密度（ESD）。虽然以前的研究表明 HT 现象与大型 NN 的良好泛化相关，但对其发生原因的理论解释仍然缺乏。特别是，理解导致这种现象的条件可以阐明泛化和权重谱之间的相互作用。我们的工作旨在通过提供一个简单的、丰富的环境来模拟 HT ESD 的出现来弥合这一差距。具体来说，我们提出了一个理论驱动的分析，用于在没有梯度噪声的情况下，在两层 NN 的 ESD 中“构建”重尾。这是第一项分析无噪声设置并将优化器（GD/Adam）相关的（大）学习率纳入 HT ESD 分析的工作。我们的结果突出了学习率在训练初期 ESD 的块状+尖峰和 HT 形状中的作用，这可以促进两层 NN 的泛化。这些观察结果阐明了大型 NN 的行为，尽管是在一个简单得多的环境中。最后但同样重要的是，我们通过分析权重矩阵的奇异向量和优化器更新，对 ESD 演化动力学提出了一个新的视角。