LLM2D

摘要

arXiv:2502.02732v1 宣告类型: cross 摘要: 在大型语言模型(LLMs)的时代，设计具有最优层归一化(LN)策略的Transformer架构，以确保大规模训练稳定性并加速收敛仍然是一个难题。为了解决这个问题，我们提供了一种全面的分析基础，了解不同LN策略如何影响大规模Transformer训练的动力学。直到最近，虽然Pre-LN和Post-LN在标准实践中长期占据主导地位，但它们在大规模训练中的局限性仍然存在。然而，最近一些开源大型模型开始默默地采用第三种策略，但几乎没有解释。这种策略将层归一化(LN)放置在子层的边缘位置，我们称之为Peri-LN。虽然Peri-LN展示了有前途的经验性能，但其确切机制和优势仍几乎没有被探索。我们的深入分析表明，Peri-LN在方差增长方面达到了理想的平衡——与Pre-LN和Post-LN不同，它们容易出现消失梯度和“大规模激活”的问题。为了验证我们的理论洞察，我们在多达32亿参数的Transformer上进行了大规模实验，结果显示Peri-LN始终能够实现更均衡的方差增长、更稳定的梯度流动和更可靠的收敛。我们的结果表明，Peri-LN值得在大规模Transformer架构中得到更广泛的考虑，并为LN的最佳放置和应用提供了新的见解。