LLM2D

摘要

arXiv:2502.00594v1 Announce Type: cross 摘要：具有选择性扫描（Mamba）的隐状态模型（SSMs）已被改编为高效的视觉模型。与视觉变换器不同，Mamba 通过递归隐藏状态过程实现了标记间交互的一线性复杂性。该顺序处理通过并行扫描算法得到增强，将递归步骤的计算时间从输入标记数（L）的L个顺序步骤减少到$ \log(L) $个并行步骤。在本文中，我们提出了一种进一步减少了视觉Mamba模型中SSM块的计算时间的Fast Vision Mamba（FastVim），同时仍然保持模型性能。通过在Mamba块之间交替沿图像维度聚合标记，我们获得了SSM块中并行步骤数量2$\times$的减少。与基准视觉Mamba模型相比，我们的模型在2048$\times$2048高分辨率图像上的推断速度提高了高达72.5%。我们的实验展示了在图像分类、细胞扰动预测、分割和对象检测等多种任务中，具有显著提升的吞吐量的最先进的性能。代码可在 https://github.com/insitro/FastVim 获取。