摘要
arXiv:2412.12496v2 更新类型: 替换-交叉
摘要:Vision Mamba(例如,Vim)已经在计算机视觉中成功集成,且在Vision Transformers(ViTs)中,token减少已经取得了令人鼓舞的结果。然而,Vision Mamba中的token减少相比于ViTs的效果要差一些。在Mamba中修剪信息性token会导致关键知识的大量损失和较差的性能,这使得它不是一个好的提高Mamba效率的解决方案。与修剪相比,保留更多信息的token合并已经在ViTs中展示了出色的性能。然而,随着减少比例的增加,vanilla的合并性能也会下降,无法保持Mamba中的关键知识。通过重新训练减少token的模型,可以有效地重建关键知识,从而提高Mamba的性能。实验证明,修剪后的Vims在ImageNet-1K上的准确率最多下降0.9%,并通过我们提出的框架R-MeeTo,在主要评估中得到了恢复。我们展示了在几分钟内实现快速恢复是多么简单和有效,在特定情况下,通过在Vim-Ti上训练3个epoch,准确率提高了35.9%。此外,Vim-Ti/S/B分别在5/7/17分钟内进行了重新训练,并且Vim-S在1.2x(至多1.5x)的推理速度提升下只下降了1.3%。