LLM2D

摘要

arXiv:2412.12496v4 宣告类型: replace-cross 摘要：Vision Mamba 在计算机视觉任务上表现出接近最先进的性能，引起了提高其效率的广泛关注。一种有前景的方法是标记减少（已在ViTs中成功实现）。在Mamba中减少信息性标记会导致关键知识的重大损失和性能下降。另一个选择，即合并标记保留了比裁剪更多的信息，但同样在大压缩比下表现不佳。我们的关键见解是，在标记合并后进行快速一轮重新训练可以在各种压缩比下获得稳健的结果。实验证明，使用我们提出的框架R-MeeTo后，剪枝Vim在ImageNet-1K上的准确率下降不超过0.9%，并在我们主要评估中得到了恢复。我们展示了如何在分钟级别实现快速恢复并保持简单有效，特别是在对Vim-Ti进行3轮训练后，准确率急剧上升35.9%。此外，Vim-Ti/S/B分别在5/7/17分钟内重新训练，并且Vim-S在加速推理1.2倍（最多1.5倍）的情况下，准确率下降仅为1.3%。