LLM2D

摘要

arXiv:2502.00919v1 交叉公告类型: 抽象: 大型语言模型 (LLMs) 的两个显著特征是存在大规模范数 (异常值) 特征和令牌倾向于非常强烈地关注一些特定令牌。尽管这些选定的令牌通常没有语义相关性，但这些称为注意陷阱 (attention sinks) 的选定令牌以及大型异常值特征已经被证明对模型性能、压缩和流式传输至关重要。因此，调查这些现象在模型中的作用以及探索它们如何在模型参数中表现已经成为一个活跃的研究领域。通过实证研究，我们证明了注意陷阱利用异常值特征来捕获一系列令牌，通过应用共同的扰动为捕获的令牌打上标签，然后将令牌释放回残差流中，在此之后标记的令牌最终被检索。我们证明简单任务，如平均化，需要“捕获、标记、释放”的机制，解释了为什么这种机制会在现代LLMs中自然出现。我们的实验证明，注意陷阱的创建可以用低秩矩阵完全捕捉到，这对模型压缩具有重要意义，并证实了最近提出的一种在低秩项中引入以缓解性能下降的方法的成功。