摘要
arXiv:2412.12496v2 宣布类型: 替换-交叉
摘要:Vision Mamba(例如,Vim)已经成功地集成到了计算机视觉中,在Vision Transformers(ViTs)中,令牌减少已经取得了令人振奋的结果。然而,对于Vision Mamba来说,令牌减少的效果不如对于ViTs那么有效。在Mamba中修剪信息性令牌导致了关键知识的大量丧失和较差的性能,这使得它不是一个提高Mamba效率的好方案。保留的信息性令牌比修剪更多的令牌性能在ViTs中已经表现出了出色的结果。然而,当减少比例增加时,即使是简单的合并性能也开始下降,无法在Mamba中保持关键知识。通过对减少后的模型进行重新培训,可以有效重建关键知识,从而提高Mamba的性能。实验证明,在我们的主要评估中,提出的方法R-MeeTo可以将修剪后的Vims的准确率下降控制在0.9%以内,并在ImageNet-1K上恢复。我们展示了如何在分钟级内实现快速恢复,特别是在对Vim-Ti进行了3轮训练后,准确率提高了35.9%。此外,Vim-Ti/S/B分别在5/7/17分钟内进行了重新培训,Vim-S的准确率下降了1.3%,但在推理速度上提高了1.2倍(最高可达1.5倍)。