摘要
arXiv:2412.01818v2 宣告类型: replace-cross
摘要: 大型视觉-语言模型(LVLMs)通常包含比其文本对应物更多的视觉标记,从而导致了相当大的计算负担。最近的研究工作通过在语言模型早期修剪视觉标记来应对这一问题。大多数现有工作使用文本和视觉标记之间的注意力分数来评估视觉标记的重要性。然而,在这项研究中,我们首先分析了语言模型中的文本-视觉注意力,并发现这种分数并不是标记修剪的理想指标。基于这一分析,我们提出了 VisPruner,这是一种插件式方法,利用视觉线索在 LVLMs 中更有效地进行标记修剪。具体来说,我们首先使用视觉注意力来选择一些重要的标记。然后,基于它们的相似性,我们从剩余标记中移除重复标记。通过保留与最初选择的重要标记一起的多样化标记,我们最大限度地保留了输入图像的视觉信息。实验结果表明,我们的 VisPruner 在各种 VLM 架构和减少比中都保持了强劲的性能,显著优于现有的基于文本-视觉注意力的方法。值得注意的是,在没有任何训练的情况下,VisPruner 可以将 LLaVA-1.5-7B 的 FLOPs 降低 91%,推理延迟降低 75%,同时保持相似的性能。我们的代码可在 https://github.com/Theia-4869/VisPruner 获取。