摘要
大型语言模型 (LLM) 的长上下文能力取得了重大突破,但最大支持上下文长度仍然是一个关键瓶颈,限制了它们的实际应用。LLM 中的上下文长度限制源于自注意力机制,该机制无法通过有限的预训练位置信息和注意力范围有效且高效地捕获无限长上下文中的语义关系。在这项工作中,我们提出了**ReAttention**,这是一种无训练方法,使基于自注意力机制的 LLM 能够在足够内存资源的情况下,以有限的注意力范围支持无限上下文。ReAttention 在普通位置感知自注意力之前执行位置无关的 top-$k$ 注意力,使 LLM 摆脱了长度外推问题。我们在 LongBench、L-Eval 和 InfiniteBench 上验证了 ReAttention 的性能,并证明它与传统方法相当。此外,我们还将 ReAttention 应用于主流 LLM,包括 LLaMA3.1-8B 和 Mistral-v0.3-7B,使它们能够支持至少 1M 的上下文长度,甚至在 Needle-In-A-Haystack 测试中将 LLaMA3.2-3B-chat 的上下文长度扩展 128 倍至 4M,而无需任何进一步的训练。我们还使用 Triton 提高了 ReAttention 的效率,并实现了高效的外推,而无需额外的开销。