LLM2D

摘要

arXiv:2505.09022v1 Announce Type: cross 摘要：Mamba 通过引入输入依赖的动力学扩展了早期的状态空间模型 (SSMs)，并在包括语言 modeling、计算机视觉和基础模型在内的多种领域中展示了强大的实证性能。然而，一个令人惊讶的弱点仍然存在：尽管 Mamba 被设计用于处理长距离依赖性，但在长距离序列任务上表现不佳。理解并解决这一差距对于提高 Mamba 的通用性和灵活性至关重要。在本文中，我们从三个角度来看分析 Mamba 的局限性：表达能力、归纳偏见和训练稳定性。我们的理论结果展示了与早期 SSMs 如 S4D 相比，Mamba 在每个方面的表现都逊色之处。为了应对这些问题，我们提出了 $\text{B}_2\text{S}_6$，这是一种对 Mamba 的 S6 单元的简单扩展，结合了块内选择性动力学和通道特定的偏置。我们证明这些更改为模型提供了更具适合性的归纳偏见，提高了其表达能力和稳定性。从实验来看，$\text{B}_2\text{S}_6$ 在 Long-Range Arena (LRA) 任务上优于 S4 和 S4D，同时在语言 modeling 标准测试中保持了 Mamba 的性能。