LLM2D
异常维度有利于语言模型中的频繁token
Outlier dimensions favor frequent tokens in language models
作者: Iuri Macocco, Nora Graichen, Gemma Boleda, Marco Baroni
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2503.21718v3

摘要

arXiv:2503.21718v3 通知类型: replace-cross 摘要:我们研究了最后一层的异常维度,即对大多数输入表现出极端激活的维度。我们表明,异常维度在许多现代语言模型中出现,并将其功能追溯到经常预测频繁出现的词的经验法则。我们进一步展示了当这种经验法则在上下文中不适当时,模型可以通过将剩余维度分配一个平衡权重来阻止这种经验法则。我们还调查了哪些模型参数增强了异常维度,并在训练过程中它们何时出现。我们得出结论,异常维度是许多不同模型发现的一种专门机制,用于实现有用的最大值预测经验法则。