LLM2D
TopV:兼容(token)剪枝与推理时优化,实现快速和低内存多模态视觉语言模型
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model
作者: Cheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Chendi Li, Jinghua Yan, Yu Bai, Ponnuswamy Sadayappan, Xia Hu, Bo Yuan
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.18278v2

摘要

arXiv:2503.18278v2 通报类型: 替换-交叉 摘要:视觉-语言模型(VLMs)在推理过程中需要大量的计算资源,主要原因在于需要表示视觉信息的大量视觉输入标记。以往的研究指出,视觉标记相比于文本标记倾向于获得较少的注意力,这表明它们在推理过程中的重要性较低,并具有潜在的精简空间。然而,他们的方法遇到了一些挑战:依赖贪婪启发式标准来衡量标记的重要性以及与FlashAttention和KV缓存不兼容。为了解决这些问题,我们引入了**TopV**,一种与推理时间优化兼容的**TO**ken **P**runing(标记精简)方法,旨在实现快速且低内存消耗的**V**LM,无需额外的训练或微调就能实现高效的精简。我们不依赖于注意力分数,而是将标记精简建模为优化问题,准确地识别重要的视觉标记,同时与FlashAttention兼容。此外,由于我们仅在预填充阶段执行此类精简,因此它有效减少了KV缓存的大小。我们的优化框架考虑了诸如特征相似性、相对空间距离和绝对中心距离等因素,形成一个感知视觉的代价函数来衡量每个来源视觉标记的重要性,从而有效地精简低重要性的标记。大量的实验表明,我们的方法优于以往的标记精简方法,验证了我们方法的有效性和效率。