LLM2D

摘要

Mamba 在长上下文建模和自回归任务中取得了显著的优势，但其在大参数模型中的可扩展性仍然是视觉应用中的主要限制。预训练是一种广泛应用于增强主干模型性能的策略。尽管 Transformer 预训练中掩码自动编码器 (MAE) 的成功已被广泛认可，但它并没有显著提高 Mamba 的视觉学习性能。我们发现，使用正确的自回归预训练可以显著提升 Mamba 架构的性能。基于此分析，我们提出了一种掩码自回归预训练 (MAP) 方法来预训练混合的 Mamba-Transformer 视觉主干网络。该策略结合了 MAE 和自回归预训练的优势，在统一的范式中提高了 Mamba 和 Transformer 模块的性能。此外，在 Mamba 和 Transformer 模块的集成方面，我们通过实证发现，在 Mamba 层中以规律的间隔插入 Transformer 层可以显著提高下游任务的性能。实验结果表明，使用 MAP 预训练的纯 Mamba 架构和混合的 Mamba-Transformer 视觉主干网络都显著优于其他预训练策略，并取得了最先进的性能。我们在 2D 和 3D 数据集上验证了该方法的有效性，并提供了详细的消融研究来支持每个组件的设计选择。