LLM2D

摘要

大型多模态模型 (LMM) 在视觉语言任务中展现出令人印象深刻的能力，但由于其高昂的计算需求，面临着巨大的部署挑战。虽然最近的令牌约简方法在加速 LMM 方面显示出前景，但它们通常需要大量的重新训练或微调，这使得它们对于许多最先进的模型（特别是那些拥有专有训练数据的模型）而言并不实用。我们提出了一种免训练的令牌约简方法 freePruner，它可以直接应用于任何开源 LMM，无需额外训练。与依赖于令牌合并操作的现有方法不同，freePruner 采用两阶段令牌选择策略：(1) 使用我们设计的贡献度指标识别捕捉高级语义信息的枢纽令牌；(2) 通过注意力模式分析选择保留基本低级视觉细节的补充令牌。大量的实验表明，在免训练环境下，freePruner 在主流视觉问答基准测试中实现了 2 倍的加速，同时保持了相当的性能。此外，freePruner 与其他训练后加速技术（如训练后量化）正交且可以与之结合，为高效部署 LMM 提供了一种实用的解决方案。