LLM2D
大型语言模型中的系统性异常值
Systematic Outliers in Large Language Models
作者: Yongqi An, Xu Zhao, Tao Yu, Ming Tang, Jinqiao Wang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06415v1

摘要

arXiv:2502.06415v1 声明类型: cross 摘要:大型语言模型(LLMs)中广泛观察到异常值,这些异常值显著影响模型性能,并对模型压缩提出了挑战。理解和分析这些异常值的功能和形成机制至关重要。然而,现有的研究大多从算法角度出发,减少了异常值的影响,但缺乏对其原因和作用的深入探讨。在本文中,我们对LLMs中异常值的形成过程、潜在原因及其功能进行了详细的分析。我们定义并归类了三种类型的异常值——激活异常值、权重异常值和注意异常值,并在不同维度上分析了它们的分布,揭示了它们出现与其最终对注意机制的影响之间的内在联系。根据这些观察,我们提出了这些异常值的形成和功能机制,并通过理论推导和实验表明,它们是由于自注意力机制中的softmax操作造成的。这些异常值在注意机制中充当隐含的上下文感知缩放因子。由于这些异常值源于系统性影响,我们将它们称为系统性异常值。我们的研究不仅增强了对基于Transformer的LLMs的理解,而且还表明结构上消除异常值可以加速收敛并提高模型压缩的效果。代码可在https://github.com/an-yongqi/systematic-outliers 获取。