LLM2D

摘要

Mamba 和 Vision Mamba (Vim) 模型已展现出作为 Transformer 架构方法替代品的潜力。这项工作介绍了用于视觉的快速 Mamba (Famba-V)，这是一种跨层令牌融合技术，旨在提高 Vim 模型的训练效率。Famba-V 的关键思想是基于一系列跨层策略来识别和融合不同 Vim 层中的相似令牌，而不是像现有工作提出的那样简单地在所有层中统一应用令牌融合。我们在 CIFAR-100 上评估了 Famba-V 的性能。我们的结果表明，Famba-V 能够通过减少训练时间和训练期间的峰值内存使用来提高 Vim 模型的训练效率。此外，所提出的跨层策略使 Famba-V 能够提供优越的准确性-效率权衡。所有这些结果共同证明了 Famba-V 作为 Vim 模型的一种很有前途的效率增强技术。