LLM2D

摘要

arXiv:2502.02732v2 宣告类型：替换交叉摘要：即使在大型语言模型（LLMs）时代，设计带有最优层归一化（LN）策略的Transformer架构，以确保大规模训练稳定性并加速收敛仍然难以实现。为此，我们提出了一个全面的分析基础，用于理解不同LN策略如何影响大规模Transformer训练的动力学。直到最近，预归一化（Pre-LN）和后归一化（Post-LN）长期以来一直主导着标准实践，尽管它们在大规模训练中存在局限性。然而，最近有一些开源大型模型开始默默地采用第三种策略，但没有太多解释。这种策略将层归一化（LN）置于子层的边缘，我们称之为Peri-LN。虽然Peri-LN在实证性能上表现出色，但其具体的机制和优势仍然几乎没有被探索。我们深入的分析表明，Peri-LN在方差增长上取得了理想的平衡——与Pre-LN和Post-LN不同，后者容易导致消失梯度和“大规模激活”。为了验证我们的理论见解，我们在参数量高达32亿的Transformer上进行了大规模实验，显示出Peri-LN在方差增长的平衡性、梯度流动的稳定性以及收敛稳定性方面的持续优势。我们的结果表明，Peri-LN值得在大规模Transformer架构中更广泛地考虑，为最佳LN的放置和应用提供了新的见解。