摘要
arXiv:2505.09022v1 Announce Type: cross
摘要:Mamba 通过引入输入依赖的动力学扩展了早期的状态空间模型 (SSMs),并在包括语言 modeling、计算机视觉和基础模型在内的多种领域中展示了强大的实证性能。然而,一个令人惊讶的弱点仍然存在:尽管 Mamba 被设计用于处理长距离依赖性,但在长距离序列任务上表现不佳。理解并解决这一差距对于提高 Mamba 的通用性和灵活性至关重要。在本文中,我们从三个角度来看分析 Mamba 的局限性:表达能力、归纳偏见和训练稳定性。我们的理论结果展示了与早期 SSMs 如 S4D 相比,Mamba 在每个方面的表现都逊色之处。为了应对这些问题,我们提出了 $\text{B}_2\text{S}_6$,这是一种对 Mamba 的 S6 单元的简单扩展,结合了块内选择性动力学和通道特定的偏置。我们证明这些更改为模型提供了更具适合性的归纳偏见,提高了其表达能力和稳定性。从实验来看,$\text{B}_2\text{S}_6$ 在 Long-Range Arena (LRA) 任务上优于 S4 和 S4D,同时在语言 modeling 标准测试中保持了 Mamba 的性能。