摘要
Mamba 和 Vision Mamba (Vim) 模型已展现出作为 Transformer 架构方法替代方案的潜力。本研究介绍了视觉快速 Mamba (Famba-V),一种跨层令牌融合技术,旨在提高 Vim 模型的训练效率。Famba-V 的关键思想是基于一套跨层策略识别和融合不同 Vim 层中的相似令牌,而不是像现有工作那样简单地对所有层进行统一的令牌融合。我们评估了 Famba-V 在 CIFAR-100 上的性能。我们的结果表明,Famba-V 能够通过减少训练时间和训练期间的峰值内存使用来提高 Vim 模型的训练效率。此外,所提出的跨层策略使 Famba-V 能够提供优越的准确性-效率权衡。所有这些结果共同证明了 Famba-V 是一种很有前景的 Vim 模型效率增强技术。