LLM2D
freePruner:一种无需训练的大型多模态模型加速方法
freePruner: A Training-free Approach for Large Multimodal Model Acceleration
作者: Bingxin Xu, Yuzhang Shang, Yunhao Ge, Qian Lou, Yan Yan
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15446v1

摘要

大型多模态模型 (LMM) 在视觉语言任务中展现出令人印象深刻的能力,但由于其高昂的计算需求,面临着巨大的部署挑战。虽然最近的令牌约简方法在加速 LMM 方面显示出前景,但它们通常需要大量的重新训练或微调,这使得它们对于许多最先进的模型(特别是那些拥有专有训练数据的模型)而言并不实用。我们提出了一种免训练的令牌约简方法 freePruner,它可以直接应用于任何开源 LMM,无需额外训练。与依赖于令牌合并操作的现有方法不同,freePruner 采用两阶段令牌选择策略:(1) 使用我们设计的贡献度指标识别捕捉高级语义信息的枢纽令牌;(2) 通过注意力模式分析选择保留基本低级视觉细节的补充令牌。大量的实验表明,在免训练环境下,freePruner 在主流视觉问答基准测试中实现了 2 倍的加速,同时保持了相当的性能。此外,freePruner 与其他训练后加速技术(如训练后量化)正交且可以与之结合,为高效部署 LMM 提供了一种实用的解决方案。