LLM2D

摘要

arXiv:2502.07161v1 类型: cross 摘要：Transformer 已经成为物体检测、语义分割和视频理解等视觉任务的基础，但其在注意力机制中的平方复杂性提出了可扩展性挑战。为了解决这些限制，Mamba 架构利用状态空间模型（SSMs）实现线性可扩展性、高效处理以及增强的上下文感知能力。本文探讨了 Mamba 架构在视觉领域应用及其近期进展，包括 Vision Mamba（ViM）和 VideoMamba，它们引入了双向扫描机制、选择性扫描机制以及时空处理，以提高图像和视频理解能力。架构创新如位置嵌入、交叉扫描模块和分层设计进一步优化了 Mamba 框架，使其更适合全局和局部特征提取。这些进展使 Mamba 成为计算机视觉研究和应用中的有前途的架构。