LLM2D
视觉中的Mamba:技术与应用综述
Mamba in Vision: A Comprehensive Survey of Techniques and Applications
作者: Md Maklachur Rahman, Abdullah Aman Tutul, Ankur Nath, Lamyanba Laishram, Soon Ki Jung, Tracy Hammond
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03105v1

摘要

Mamba 作为一种新方法,正在克服卷积神经网络 (CNN) 和视觉Transformer (ViT) 在计算机视觉中面临的挑战。尽管 CNN 在提取局部特征方面表现出色,但它们通常难以在没有复杂架构修改的情况下捕获长距离依赖关系。相比之下,ViT 有效地建模了全局关系,但由于其自注意力机制的二次复杂度,导致计算成本很高。Mamba 通过利用选择性结构化状态空间模型来解决这些限制,以线性计算复杂度有效地捕获长距离依赖关系。本综述分析了 Mamba 模型的独特贡献、计算优势和应用,同时还指出了挑战和潜在的未来研究方向。我们提供了一个基础资源,以促进对计算机视觉中 Mamba 模型的理解和发展。有关此工作的概述,请访问 https://github.com/maklachur/Mamba-in-Computer-Vision。