LLM2D

摘要

arXiv:2502.06415v1 声明类型: cross 摘要：大型语言模型（LLMs）中广泛观察到异常值，这些异常值显著影响模型性能，并对模型压缩提出了挑战。理解和分析这些异常值的功能和形成机制至关重要。然而，现有的研究大多从算法角度出发，减少了异常值的影响，但缺乏对其原因和作用的深入探讨。在本文中，我们对LLMs中异常值的形成过程、潜在原因及其功能进行了详细的分析。我们定义并归类了三种类型的异常值——激活异常值、权重异常值和注意异常值，并在不同维度上分析了它们的分布，揭示了它们出现与其最终对注意机制的影响之间的内在联系。根据这些观察，我们提出了这些异常值的形成和功能机制，并通过理论推导和实验表明，它们是由于自注意力机制中的softmax操作造成的。这些异常值在注意机制中充当隐含的上下文感知缩放因子。由于这些异常值源于系统性影响，我们将它们称为系统性异常值。我们的研究不仅增强了对基于Transformer的LLMs的理解，而且还表明结构上消除异常值可以加速收敛并提高模型压缩的效果。代码可在https://github.com/an-yongqi/systematic-outliers 获取。