LLM2D

摘要

arXiv:2504.16053v1 Announce Type: cross 摘要：状态空间模型（SSMs）已成为语言建模中Transformer模型的有效替代方案，提供线性计算复杂度和恒定的内存使用量，随着上下文长度的增加。然而，尽管在处理长上下文方面表现出高效性，最近的研究表明，如Mamba模型等SSMs在长上下文理解任务上的表现普遍低于Transformer。为了弥补这一显著不足，实现高效且准确的长上下文理解，我们提出了一种无需训练的技术LongMamba，显著增强了Mamba模型的长上下文能力。LongMamba基于我们发现Mamba中的隐藏通道可以根据其感受野长度分为局部通道和全局通道，其中全局通道主要负责长上下文能力。随着输入上下文长度的增加，这些全局通道可能会成为关键瓶颈。具体而言，当输入长度大大超过训练序列长度时，全局通道在适应性地扩展其感受野方面表现出局限性，导致Mamba在长上下文理解方面的表现欠佳。LongMamba的关键思想是通过防止不必要的标记在全局通道的记忆中累积来减轻隐藏状态记忆的衰减。这首先通过识别全局通道中的关键标记来实现，然后应用标记过滤，只保留那些关键标记。通过在合成和现实世界的长上下文场景中的广泛基准测试，LongMamba设定了Mamba长上下文性能的新标准，而无需额外的训练即可显著扩展其运行范围。我们的代码可在https://github.com/GATECH-EIC/LongMamba找到。