LLM2D

摘要

arXiv:2502.15007v1 交叉类型: cross 摘要: 我们介绍了量化大型语言模型 (LLMs) 如何编码和存储上下文信息的方法，揭示了通常被视为次要的标点符号（例如，限定词、标点符号）实际上携带着令人惊讶的高上下文信息。值得注意的是，即使只删除无关的标记，如停用词、冠词和逗号，也一致地降低了MMLU和BABILong-4k的性能。我们的分析还显示，上下文化与线性度之间存在强烈的关联，线性度衡量的是从一个层的嵌入到下一个层的转换能否近似为单一的线性映射的程度。这些发现突显了填充标记在保持上下文中的潜在重要性。为了进一步探索，我们提出了LLM-Microscope，一个开源工具包，用于评估标记级别的非线性、评估上下文记忆、通过调整后的Logit Lens可视化中间层贡献，并测量表示的内在维数。这个工具包揭示了看似平凡的标记在长距离理解中的关键作用。