摘要
arXiv:2501.17391v2 Announce Type: replace-cross
摘要:视觉-语言模型(VLMs)在多模态任务中取得了显著的成功;然而,它们的实际部署经常受到高计算成本和较长推理时间的限制。由于视觉模态通常携带比文本模态更多的信息,压缩视觉提示提供了一种缓解这些挑战的有前景的解决方案。现有的方法大多侧重于改进模型架构或直接减少视觉令牌的数量。然而,这些方法往往因未能考虑视觉数据的独特空间和时间特征而牺牲了推理性能。在此次工作中,我们提出了一种在空间和时间维度上操作的令牌压缩范式。该方法包括一个无需学习、即插即用的压缩管道,可以无缝集成到大多数多模态大型语言模型(MLLM)框架中。通过使用这种方法,我们增强了模型的推理能力同时降低了其计算成本。在Video-QA任务上的实验结果表明了所提出方法的有效性,展示了在不牺牲性能的前提下显著提高了效率。