LLM2D
Famba-V:具有跨层令牌融合的快速视觉Mamba
Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion
作者: Hui Shen, Zhongwei Wan, Xin Wang, Mi Zhang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2409.09808v3

摘要

Mamba 和 Vision Mamba (Vim) 模型已展现出作为 Transformer 架构方法替代品的潜力。这项工作介绍了用于视觉的快速 Mamba (Famba-V),这是一种跨层令牌融合技术,旨在提高 Vim 模型的训练效率。Famba-V 的关键思想是基于一系列跨层策略来识别和融合不同 Vim 层中的相似令牌,而不是像现有工作提出的那样简单地在所有层中统一应用令牌融合。我们在 CIFAR-100 上评估了 Famba-V 的性能。我们的结果表明,Famba-V 能够通过减少训练时间和训练期间的峰值内存使用来提高 Vim 模型的训练效率。此外,所提出的跨层策略使 Famba-V 能够提供优越的准确性-效率权衡。所有这些结果共同证明了 Famba-V 作为 Vim 模型的一种很有前途的效率增强技术。