摘要
arXiv:2406.14528v3 宣告类型: replace-cross
摘要:长范围序列处理由于输入长度带来的二次复杂性,对Transformer构成了重大挑战。Mamba提供了一种有前景的替代方案,它展示了高性能并实现了与Transformer相当的能力,同时所需计算资源显著减少。在本文中,我们探讨了Mamba的长度泛化能力,发现其相对有限。通过一系列可视化和分析,我们发现限制因素来自于训练期间使用的序列长度所决定的有效感受野限制。为了解决这一约束,我们提出了DeciMamba,这是一种专门为Mamba设计的上下文扩展方法。这种方法基于S6层内部嵌入的隐藏过滤机制,使训练后的模型即使不进行额外训练也能很好地进行外推。在实际长范围自然语言处理任务上的实验证明,DeciMamba可以对外推到远超训练期间看到的上下文长度,同时享受更快的推理速度。