LLM2D
层归一化的一种几何解释及与RMSNorm的比较分析
Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm
作者: Akshat Gupta, Atahan Ozdemir, Gopala Anumanchipalli
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2409.12951v2

摘要

arXiv:2409.12951v2 Announce Type: replace-cross 摘要:本文提出了LayerNorm的一种新的几何解释,并探讨了LayerNorm如何影响表示空间中隐藏向量的范数和方向。通过这些几何见解,我们为比较LayerNorm与RMSNorm奠定了基础。我们展示了LayerNorm的定义与均匀向量(定义为$\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$)之间内在的联系。然后我们表明,LayerNorm中的标准化步骤可以分为三个简单的步骤:(i)移除向量沿均匀向量分量,(ii)对剩余的向量进行归一化,(iii)将结果向量缩放为$\sqrt{d}$倍,其中$d$是表示空间的维度。我们还提供了关于LayerNorm在推理时运作方式的额外见解。最后,我们将基于LayerNorm的LLM的隐藏表示与使用RMSNorm训练的模型进行了比较,并展示了所有LLM在推理时自然地相对于均匀向量正交,也就是说,在推理过程中它们的成分通常不会沿均匀向量方向。这为去除LayerNorm中沿均匀向量分量的步骤提供了首次机械证据。这些结果提倡使用RMSNorm优于LayerNorm,同时RMSNorm在计算上也更为高效。