LLM2D

摘要

arXiv:2412.12496v2 宣布类型: 替换-交叉摘要：Vision Mamba（例如，Vim）已经成功地集成到了计算机视觉中，在Vision Transformers（ViTs）中，令牌减少已经取得了令人振奋的结果。然而，对于Vision Mamba来说，令牌减少的效果不如对于ViTs那么有效。在Mamba中修剪信息性令牌导致了关键知识的大量丧失和较差的性能，这使得它不是一个提高Mamba效率的好方案。保留的信息性令牌比修剪更多的令牌性能在ViTs中已经表现出了出色的结果。然而，当减少比例增加时，即使是简单的合并性能也开始下降，无法在Mamba中保持关键知识。通过对减少后的模型进行重新培训，可以有效重建关键知识，从而提高Mamba的性能。实验证明，在我们的主要评估中，提出的方法R-MeeTo可以将修剪后的Vims的准确率下降控制在0.9%以内，并在ImageNet-1K上恢复。我们展示了如何在分钟级内实现快速恢复，特别是在对Vim-Ti进行了3轮训练后，准确率提高了35.9%。此外，Vim-Ti/S/B分别在5/7/17分钟内进行了重新培训，Vim-S的准确率下降了1.3%，但在推理速度上提高了1.2倍（最高可达1.5倍）。