摘要
arXiv:2402.02364v2 宣告类型:替换交叉
摘要:深度学习涉及在神经网络参数空间中导航一个高维损失景观。在训练过程中,复杂的计算结构会在神经网络内部形成并重新形成,导致输入/输出行为发生变化。深度学习科学的一个优先事项是发现指导神经网络结构和行为发展的原则。借助奇异学习理论的框架,我们提出模型开发与损失景观局部几何的退化之间有深刻联系。我们通过监测变压器语言模型和上下文线性回归变压器在整个训练过程中的损失景观退化程度(通过局部学习系数量化),来研究这种联系。我们表明,训练可以被划分为损失景观退化程度明显变化的不同时期,而这些退化程度的变化与变压器内部计算结构和输入/输出行为的重大变化相一致。这一发现强调了基于退化视角理解现代深度学习的潜力。