LLM2D

摘要

arXiv:2502.05795v1 命名类型: cross 摘要: 在本文中，我们引入了“深度诅咒”这一概念，该概念突出、解释并解决了现代大型语言模型（LLMs）中的一项最近观察结果，其中近一半的层比预期的更不有效。我们首先确认了这一现象在最流行的LLM家族（如Llama、Mistral、DeepSeek和Qwen）中普遍存在。我们的分析（理论和实证）表明，大语言模型中深层层无效的根本原因是前期层规范化（Pre-LN）的广泛应用。虽然Pre-LN稳定了Transformer LLM的训练，但其输出方差随模型深度呈指数增长，这无意中导致深层Transformer块的导数为单位矩阵，从而对训练几乎没有贡献。为了解决这一训练缺陷，我们提出了一种层规范化缩放（LayerNorm Scaling）的方法，该方法通过层规范化输出的方差与深度的平方根成反比进行缩放。这种简单的修改缓解了更深的Transformer层的输出方差爆炸，提高了它们的训练贡献。我们的实验结果显示，从130M到1B规模的模型，层规范化缩放显著提升了LLM预训练性能，而且这种改进无缝地转移到了监督微调中。所有这些收益都可以归因于层规范化缩放使得深层层在训练过程中可以更有效地贡献。