摘要
arXiv:2503.02175v2 宣告类型: replace-cross
摘要: 大型多模态模型(LMMs)已经发展成为能够理解多种数据模态的强大模型,包括文本、图像和视频。LMMs 将文本和视觉数据编码成tokens,然后由集成的大语言模型(LLM)进行组合和处理。包含视觉tokens大幅增加了总的tokens数量,通常增加数千个。对于LLM的增加输入长度显著增加了推理的复杂性,导致大模态模型(LMMs)的高延迟。为了解决这个问题,提出了一种tokens剪枝方法,该方法去除了一部分视觉tokens。现有的tokens剪枝方法要么需要大量的校准和微调,要么依赖于次优的重要性指标,这导致保留的tokens之间存在增加的冗余性。在本文中,我们首先将tokens剪枝问题形式化为最大最小多样性问题(MMDP),目标是在所选tokens之间最大化多样性。然后,我们解决了MMDP来获得所选子集并剪枝其余部分。所提出的方法DivPrune减少了冗余性并且实现了选定tokens的最高多样性。通过确保高多样性,选定的tokens更好地代表了原始tokens,即使在高剪枝比例下也不需要微调也能实现有效性能。使用各种LMMs进行的广泛实验表明,DivPrune在16个图像和视频语言数据集上实现了最先进的准确性。此外,DivPrune还降低了测试模型的端到端延迟和GPU内存使用量。代码可在$\href{https://github.com/vbdi/divprune}{这里}$获得。