摘要
arXiv:2406.14528v2 宣言类型: replace-cross
摘要:长范围序列处理对Transformer构成了巨大挑战,因为其输入长度的复杂度呈二次方增长。一种有希望的替代方法是Mamba,它展现了高性能并实现了与Transformer相当的能力,同时所需的计算资源大幅减少。在本文中,我们探讨了Mamba的长度泛化能力,发现其相对较有限。通过一系列可视化和分析,我们发现这些限制源于训练期间使用的序列长度所决定的有效感受野有限。为了解决这个约束,我们引入了DeciMamba,这是一种专门针对Mamba的上下文扩展方法。该机制基于嵌入在S6层中的隐藏过滤机制构建,使得训练模型即使在没有额外训练的情况下也能很好地进行外推。在真实世界的长距离NLP任务上的实证实验表明,DeciMamba可以在远长于训练期间见过的上下文长度下进行外推,同时具有更快的推理速度。