LLM2D

摘要

arXiv:2409.12951v1 公告类型: 交叉摘要: 层归一化是Transformer架构中的关键步骤。本文深入探讨了这一过程中较少被研究的几何含义，分析了LayerNorm如何影响表示空间中隐藏向量的范数和方向。我们展示了LayerNorm的定义与均匀向量（定义为$\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$）之间固有的联系。然后，我们展示了LayerNorm中的标准化步骤可以通过三个简单的步骤来理解：(i) 移除向量沿均匀向量的分量，(ii) 归一化剩余向量，以及(iii) 将结果向量按$\sqrt{d}$缩放，其中$d$是表示空间的维度。我们还引入了LayerNorm的“不可逆性”属性，表明在归一化过程中丢失的信息无法恢复。换句话说，与批量归一化不同，LayerNorm无法学习恒等变换。尽管我们提出了可能的论点来移除沿均匀向量的分量，但这一选择似乎是任意的，并未得到原作者的充分动机。为了评估这一步骤的有用性，我们将基于LayerNorm的LLM的隐藏表示与使用RMSNorm训练的模型进行了比较，结果显示所有LLM自然地将表示对齐到与均匀向量正交的方向，提供了第一个机制证据，表明在LayerNorm中移除沿均匀向量的分量是一个冗余步骤。我们的研究结果支持使用RMSNorm而不是LayerNorm，因为它不仅在计算效率上更高，且在下游性能上相当，还能学习到类似的隐藏表示分布，这些表示在与均匀向量正交的方向上操作。