摘要
arXiv:2502.00594v1 Announce Type: cross
摘要:具有选择性扫描(Mamba)的隐状态模型(SSMs)已被改编为高效的视觉模型。与视觉变换器不同,Mamba 通过递归隐藏状态过程实现了标记间交互的一线性复杂性。该顺序处理通过并行扫描算法得到增强,将递归步骤的计算时间从输入标记数(L)的L个顺序步骤减少到$ \log(L) $个并行步骤。在本文中,我们提出了一种进一步减少了视觉Mamba模型中SSM块的计算时间的Fast Vision Mamba(FastVim),同时仍然保持模型性能。通过在Mamba块之间交替沿图像维度聚合标记,我们获得了SSM块中并行步骤数量2$\times$的减少。与基准视觉Mamba模型相比,我们的模型在2048$\times$2048高分辨率图像上的推断速度提高了高达72.5%。我们的实验展示了在图像分类、细胞扰动预测、分割和对象检测等多种任务中,具有显著提升的吞吐量的最先进的性能。代码可在 https://github.com/insitro/FastVim 获取。