摘要
大型多模态模型 (LMM) 在视觉语言任务中展现出令人印象深刻的能力,但由于其高昂的计算需求,面临着巨大的部署挑战。虽然最近的令牌约简方法在加速 LMM 方面显示出前景,但它们通常需要大量的重新训练或微调,这使得它们对于许多最先进的模型(特别是那些拥有专有训练数据的模型)而言并不实用。我们提出了一种免训练的令牌约简方法 freePruner,它可以直接应用于任何开源 LMM,无需额外训练。与依赖于令牌合并操作的现有方法不同,freePruner 采用两阶段令牌选择策略:(1) 使用我们设计的贡献度指标识别捕捉高级语义信息的枢纽令牌;(2) 通过注意力模式分析选择保留基本低级视觉细节的补充令牌。大量的实验表明,在免训练环境下,freePruner 在主流视觉问答基准测试中实现了 2 倍的加速,同时保持了相当的性能。此外,freePruner 与其他训练后加速技术(如训练后量化)正交且可以与之结合,为高效部署 LMM 提供了一种实用的解决方案。