LLM2D

摘要

arXiv:2412.12496v2 更新类型: 替换-交叉摘要：Vision Mamba（例如，Vim）已经在计算机视觉中成功集成，且在Vision Transformers（ViTs）中，token减少已经取得了令人鼓舞的结果。然而，Vision Mamba中的token减少相比于ViTs的效果要差一些。在Mamba中修剪信息性token会导致关键知识的大量损失和较差的性能，这使得它不是一个好的提高Mamba效率的解决方案。与修剪相比，保留更多信息的token合并已经在ViTs中展示了出色的性能。然而，随着减少比例的增加，vanilla的合并性能也会下降，无法保持Mamba中的关键知识。通过重新训练减少token的模型，可以有效地重建关键知识，从而提高Mamba的性能。实验证明，修剪后的Vims在ImageNet-1K上的准确率最多下降0.9%，并通过我们提出的框架R-MeeTo，在主要评估中得到了恢复。我们展示了在几分钟内实现快速恢复是多么简单和有效，在特定情况下，通过在Vim-Ti上训练3个epoch，准确率提高了35.9%。此外，Vim-Ti/S/B分别在5/7/17分钟内进行了重新训练，并且Vim-S在1.2x（至多1.5x）的推理速度提升下只下降了1.3%。