LLM2D

摘要

arXiv:2503.18278v2 通报类型: 替换-交叉摘要：视觉-语言模型（VLMs）在推理过程中需要大量的计算资源，主要原因在于需要表示视觉信息的大量视觉输入标记。以往的研究指出，视觉标记相比于文本标记倾向于获得较少的注意力，这表明它们在推理过程中的重要性较低，并具有潜在的精简空间。然而，他们的方法遇到了一些挑战：依赖贪婪启发式标准来衡量标记的重要性以及与FlashAttention和KV缓存不兼容。为了解决这些问题，我们引入了**TopV**，一种与推理时间优化兼容的**TO**ken **P**runing（标记精简）方法，旨在实现快速且低内存消耗的**V**LM，无需额外的训练或微调就能实现高效的精简。我们不依赖于注意力分数，而是将标记精简建模为优化问题，准确地识别重要的视觉标记，同时与FlashAttention兼容。此外，由于我们仅在预填充阶段执行此类精简，因此它有效减少了KV缓存的大小。我们的优化框架考虑了诸如特征相似性、相对空间距离和绝对中心距离等因素，形成一个感知视觉的代价函数来衡量每个来源视觉标记的重要性，从而有效地精简低重要性的标记。大量的实验表明，我们的方法优于以往的标记精简方法，验证了我们方法的有效性和效率。