LLM2D

摘要

Transformer 已成为当前大型语言模型 (LLM) 的基石；然而，其推理过程中与序列长度相关的线性开销增长给长序列建模带来了挑战。在此背景下，Mamba 由于其在推理过程中保持恒定大小而逐渐受到关注，现有实证结果表明，它可以在序列建模中与 Transformer 相媲美，同时提供显著的节省。然而，人们可能会问，Mamba 真的可以一直享受“免费午餐”吗？在本文中，我们从理论角度分析了 Mamba 的表达能力。首先，受 Mamba 与线性注意力的联系启发，我们研究了 Mamba 在执行 COPY 操作时的潜在缺陷。我们的结果表明，具有恒定大小的 Mamba 在处理 COPY 时可能会遇到瓶颈，而当大小随序列长度线性扩展时，它可以实现完美的性能。基于此观察，我们分析了 Mamba 在配备思维链 (CoT) 时解决 DP 问题的能力。我们的发现表明，为了解决任意 DP 问题，Mamba 的总成本与标准和高效的 Transformer 相当。然而，与高效 Transformer 类似，当面对具有局部性等有利属性的 DP 问题时，Mamba 可以节省开销。我们的结果有助于更深入地理解 Mamba。