LLM2D

摘要

arXiv:2504.17040v2 宣告类型: 替换交叉摘要：我们提出了一种名为DyMU的有效且无需训练的框架，该框架能够动态减少视觉语言模型(VLMs)的计算负担，同时保持高水平的任务性能。我们的方法包含两个关键组件。首先，动态令牌合并(DToMe)通过基于图像复杂度合并相似的令牌来减少视觉令牌嵌入的数量，从而解决视觉变压器固有的固定长度输出的低效性。其次，虚拟令牌反合并(VTU)通过高效地重建完整序列的注意力动态来模拟大型语言模型(LLMs)的预期令牌序列，从而在无需额外微调的情况下保持下游性能。与以往的方法不同，我们的方法动态地根据图像内容调整令牌压缩，并完全无需训练，使其能够轻松应用于大多数最先进的VLM架构。在图像和视频理解任务上的广泛实验表明，DyMU可以在减少32%-85%的平均视觉令牌计数的同时，实现与全长模型相当的性能，涵盖包括最近流行的AnyRes基视觉编码器在内的多种VLM架构。此外，通过定性分析，我们证明了DToMe能够根据图像复杂度有效地调整令牌减少，并且与现有系统不同，为用户提供更多控制计算成本的选项。项目页面：https://mikewangwzhl.github.io/dymu/。