摘要
Mamba 在长上下文建模和自回归任务中取得了显著的优势,但其在大参数模型中的可扩展性仍然是视觉应用中的主要限制。预训练是一种广泛应用于增强主干模型性能的策略。尽管 Transformer 预训练中掩码自动编码器 (MAE) 的成功已被广泛认可,但它并没有显著提高 Mamba 的视觉学习性能。我们发现,使用正确的自回归预训练可以显著提升 Mamba 架构的性能。基于此分析,我们提出了一种掩码自回归预训练 (MAP) 方法来预训练混合的 Mamba-Transformer 视觉主干网络。该策略结合了 MAE 和自回归预训练的优势,在统一的范式中提高了 Mamba 和 Transformer 模块的性能。此外,在 Mamba 和 Transformer 模块的集成方面,我们通过实证发现,在 Mamba 层中以规律的间隔插入 Transformer 层可以显著提高下游任务的性能。实验结果表明,使用 MAP 预训练的纯 Mamba 架构和混合的 Mamba-Transformer 视觉主干网络都显著优于其他预训练策略,并取得了最先进的性能。我们在 2D 和 3D 数据集上验证了该方法的有效性,并提供了详细的消融研究来支持每个组件的设计选择。