LLM2D
在权重矩阵频谱中构建重尾分布,无需梯度噪声
Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
作者: Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2406.04657v2

摘要

现代深度神经网络(NN)的训练策略倾向于在层权重中诱导出重尾(HT)经验谱密度(ESD)。虽然以前的研究表明 HT 现象与大型 NN 的良好泛化相关,但对其发生原因的理论解释仍然缺乏。特别是,理解导致这种现象的条件可以阐明泛化和权重谱之间的相互作用。我们的工作旨在通过提供一个简单的、丰富的环境来模拟 HT ESD 的出现来弥合这一差距。具体来说,我们提出了一个理论驱动的分析,用于在没有梯度噪声的情况下,在两层 NN 的 ESD 中“构建”重尾。这是第一项分析无噪声设置并将优化器(GD/Adam)相关的(大)学习率纳入 HT ESD 分析的工作。我们的结果突出了学习率在训练初期 ESD 的块状+尖峰和 HT 形状中的作用,这可以促进两层 NN 的泛化。这些观察结果阐明了大型 NN 的行为,尽管是在一个简单得多的环境中。最后但同样重要的是,我们通过分析权重矩阵的奇异向量和优化器更新,对 ESD 演化动力学提出了一个新的视角。