LLM2D

摘要

arXiv:2504.04787v1 类型：交叉摘要：基于Mamba的视觉模型由于在计算效率上比基于注意力的模型更胜一筹而受到了广泛的关注。然而，这些模型中仍然存在空间冗余，表现为标记和块冗余。对于标记冗余，我们分析发现，早期的标记裁剪方法会导致训练和推理之间的一致性问题，或者在推理过程中引入额外的计算。因此，我们针对Mamba结构定制了标记裁剪方法，通过在进入下一个Mamba块之前重新排列裁剪序列。对于块冗余，我们允许每张图片根据经验观察到的现象，即基于Mamba视觉模型的推理速度很大程度上受到SSM块数量的影响，动态选择SSM块。我们提出的方法，动态视觉Mamba（DyVM），在性能下降轻微的情况下有效地减少了FLOPs。我们通过在Vim-S上实现35.2%的FLOPs减少，只损失了1.7%的精度。此外，该方法在不同的Mamba视觉模型架构和不同的视觉任务中表现良好。我们的代码将会公开。