LLM2D
DyMU:动态合并与虚拟反合并以实现高效的VLMs
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
作者: Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2504.17040v2

摘要

arXiv:2504.17040v2 宣告类型: 替换交叉 摘要:我们提出了一种名为DyMU的有效且无需训练的框架,该框架能够动态减少视觉语言模型(VLMs)的计算负担,同时保持高水平的任务性能。我们的方法包含两个关键组件。首先,动态令牌合并(DToMe)通过基于图像复杂度合并相似的令牌来减少视觉令牌嵌入的数量,从而解决视觉变压器固有的固定长度输出的低效性。其次,虚拟令牌反合并(VTU)通过高效地重建完整序列的注意力动态来模拟大型语言模型(LLMs)的预期令牌序列,从而在无需额外微调的情况下保持下游性能。与以往的方法不同,我们的方法动态地根据图像内容调整令牌压缩,并完全无需训练,使其能够轻松应用于大多数最先进的VLM架构。在图像和视频理解任务上的广泛实验表明,DyMU可以在减少32%-85%的平均视觉令牌计数的同时,实现与全长模型相当的性能,涵盖包括最近流行的AnyRes基视觉编码器在内的多种VLM架构。此外,通过定性分析,我们证明了DToMe能够根据图像复杂度有效地调整令牌减少,并且与现有系统不同,为用户提供更多控制计算成本的选项。项目页面:https://mikewangwzhl.github.io/dymu/。