LLM2D

摘要

arXiv:2409.12951v2 Announce Type: replace-cross 摘要：本文提出了LayerNorm的一种新的几何解释，并探讨了LayerNorm如何影响表示空间中隐藏向量的范数和方向。通过这些几何见解，我们为比较LayerNorm与RMSNorm奠定了基础。我们展示了LayerNorm的定义与均匀向量（定义为$\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$）之间内在的联系。然后我们表明，LayerNorm中的标准化步骤可以分为三个简单的步骤：（i）移除向量沿均匀向量分量，（ii）对剩余的向量进行归一化，（iii）将结果向量缩放为$\sqrt{d}$倍，其中$d$是表示空间的维度。我们还提供了关于LayerNorm在推理时运作方式的额外见解。最后，我们将基于LayerNorm的LLM的隐藏表示与使用RMSNorm训练的模型进行了比较，并展示了所有LLM在推理时自然地相对于均匀向量正交，也就是说，在推理过程中它们的成分通常不会沿均匀向量方向。这为去除LayerNorm中沿均匀向量分量的步骤提供了首次机械证据。这些结果提倡使用RMSNorm优于LayerNorm，同时RMSNorm在计算上也更为高效。