LLM2D
Peri-LN: 重新审视Transformer架构中的层规范化
Peri-LN: Revisiting Layer Normalization in the Transformer Architecture
作者: Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02732v1

摘要

arXiv:2502.02732v1 宣告类型: cross 摘要: 在大型语言模型(LLMs)的时代,设计具有最优层归一化(LN)策略的Transformer架构,以确保大规模训练稳定性并加速收敛仍然是一个难题。为了解决这个问题,我们提供了一种全面的分析基础,了解不同LN策略如何影响大规模Transformer训练的动力学。直到最近,虽然Pre-LN和Post-LN在标准实践中长期占据主导地位,但它们在大规模训练中的局限性仍然存在。然而,最近一些开源大型模型开始默默地采用第三种策略,但几乎没有解释。这种策略将层归一化(LN)放置在子层的边缘位置,我们称之为Peri-LN。虽然Peri-LN展示了有前途的经验性能,但其确切机制和优势仍几乎没有被探索。我们的深入分析表明,Peri-LN在方差增长方面达到了理想的平衡——与Pre-LN和Post-LN不同,它们容易出现消失梯度和“大规模激活”的问题。为了验证我们的理论洞察,我们在多达32亿参数的Transformer上进行了大规模实验,结果显示Peri-LN始终能够实现更均衡的方差增长、更稳定的梯度流动和更可靠的收敛。我们的结果表明,Peri-LN值得在大规模Transformer架构中得到更广泛的考虑,并为LN的最佳放置和应用提供了新的见解。