摘要
arXiv:2502.07161v1 类型: cross
摘要:Transformer 已经成为物体检测、语义分割和视频理解等视觉任务的基础,但其在注意力机制中的平方复杂性提出了可扩展性挑战。为了解决这些限制,Mamba 架构利用状态空间模型(SSMs)实现线性可扩展性、高效处理以及增强的上下文感知能力。本文探讨了 Mamba 架构在视觉领域应用及其近期进展,包括 Vision Mamba(ViM)和 VideoMamba,它们引入了双向扫描机制、选择性扫描机制以及时空处理,以提高图像和视频理解能力。架构创新如位置嵌入、交叉扫描模块和分层设计进一步优化了 Mamba 框架,使其更适合全局和局部特征提取。这些进展使 Mamba 成为计算机视觉研究和应用中的有前途的架构。