LLM2D

摘要

Mamba 作为一种新方法，正在克服卷积神经网络 (CNN) 和视觉Transformer (ViT) 在计算机视觉中面临的挑战。尽管 CNN 在提取局部特征方面表现出色，但它们通常难以在没有复杂架构修改的情况下捕获长距离依赖关系。相比之下，ViT 有效地建模了全局关系，但由于其自注意力机制的二次复杂度，导致计算成本很高。Mamba 通过利用选择性结构化状态空间模型来解决这些限制，以线性计算复杂度有效地捕获长距离依赖关系。本综述分析了 Mamba 模型的独特贡献、计算优势和应用，同时还指出了挑战和潜在的未来研究方向。我们提供了一个基础资源，以促进对计算机视觉中 Mamba 模型的理解和发展。有关此工作的概述，请访问 https://github.com/maklachur/Mamba-in-Computer-Vision。