摘要
arXiv:2502.02732v2 宣告类型:替换交叉
摘要:即使在大型语言模型(LLMs)时代,设计带有最优层归一化(LN)策略的Transformer架构,以确保大规模训练稳定性并加速收敛仍然难以实现。为此,我们提出了一个全面的分析基础,用于理解不同LN策略如何影响大规模Transformer训练的动力学。直到最近,预归一化(Pre-LN)和后归一化(Post-LN)长期以来一直主导着标准实践,尽管它们在大规模训练中存在局限性。然而,最近有一些开源大型模型开始默默地采用第三种策略,但没有太多解释。这种策略将层归一化(LN)置于子层的边缘,我们称之为Peri-LN。虽然Peri-LN在实证性能上表现出色,但其具体的机制和优势仍然几乎没有被探索。我们深入的分析表明,Peri-LN在方差增长上取得了理想的平衡——与Pre-LN和Post-LN不同,后者容易导致消失梯度和“大规模激活”。为了验证我们的理论见解,我们在参数量高达32亿的Transformer上进行了大规模实验,显示出Peri-LN在方差增长的平衡性、梯度流动的稳定性以及收敛稳定性方面的持续优势。我们的结果表明,Peri-LN值得在大规模Transformer架构中更广泛地考虑,为最佳LN的放置和应用提供了新的见解。