LLM2D
重新引入LayerNorm:几何意义、不可逆性及与RMSNorm的比较研究
Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12951v1

摘要

arXiv:2409.12951v1 公告类型: 交叉 摘要: 层归一化是Transformer架构中的关键步骤。本文深入探讨了这一过程中较少被研究的几何含义,分析了LayerNorm如何影响表示空间中隐藏向量的范数和方向。我们展示了LayerNorm的定义与均匀向量(定义为$\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$)之间固有的联系。然后,我们展示了LayerNorm中的标准化步骤可以通过三个简单的步骤来理解:(i) 移除向量沿均匀向量的分量,(ii) 归一化剩余向量,以及(iii) 将结果向量按$\sqrt{d}$缩放,其中$d$是表示空间的维度。我们还引入了LayerNorm的“不可逆性”属性,表明在归一化过程中丢失的信息无法恢复。换句话说,与批量归一化不同,LayerNorm无法学习恒等变换。尽管我们提出了可能的论点来移除沿均匀向量的分量,但这一选择似乎是任意的,并未得到原作者的充分动机。为了评估这一步骤的有用性,我们将基于LayerNorm的LLM的隐藏表示与使用RMSNorm训练的模型进行了比较,结果显示所有LLM自然地将表示对齐到与均匀向量正交的方向,提供了第一个机制证据,表明在LayerNorm中移除沿均匀向量的分量是一个冗余步骤。我们的研究结果支持使用RMSNorm而不是LayerNorm,因为它不仅在计算效率上更高,且在下游性能上相当,还能学习到类似的隐藏表示分布,这些表示在与均匀向量正交的方向上操作。