LLM2D

摘要

大型视觉语言模型 (LVLMs) 的效率受到预填充阶段注意力机制的计算瓶颈以及解码阶段获取键值 (KV) 缓存的内存瓶颈的限制，尤其是在涉及高分辨率图像或视频的场景中。视觉内容通常表现出大量的冗余，导致 LVLMs 中的注意力图高度稀疏。这种稀疏性可以被利用来通过各种方法加速注意力计算或压缩 KV 缓存。然而，大多数研究只专注于解决这些瓶颈中的一个，并且没有充分支持针对不同层或任务的稀疏性的动态调整。在本文中，我们提出了 ZipVL，一个为 LVLMs 设计的高效推理框架，通过重要的标记的动态比率分配策略来解决计算和内存瓶颈。该比率是根据特定层的注意力分数分布自适应地确定的，而不是固定的超参数，从而提高了不太复杂的任务的效率，同时保持了更具挑战性的任务的高性能。然后我们根据其归一化注意力分数选择重要的标记，并在这些重要的标记上执行注意力机制，以加速预填充阶段。为了缓解解码阶段的内存瓶颈，我们对 KV 缓存采用了混合精度量化，其中对重要标记的缓存使用高位量化，而对不太重要的标记使用低位量化。我们的实验表明，ZipVL 可以将预填充阶段加速 2.6 倍，并将 GPU 内存使用量减少 50.0%，在 Video-MME 基准测试中，与 LongVA-7B 模型相比，精度仅降低了 0.2%，有效地提高了 LVLMs 的生成效率。