LLM2D

摘要

arXiv:2503.23956v1 类型: cross 摘要: 近年来，在大规模视觉语言模型（LVLMs）方面的最新进展引起了广泛关注，这主要是因为它们在推理方面表现出色，通用化能力也很强。然而，处理大量的视觉令牌和生成长上下文输出会导致巨大的计算开销，从而对关键值（KV）缓存产生巨大的需求。为了解决这一关键瓶颈，我们提出了AirCache，一种新的KV缓存压缩方法，旨在加速LVLMs推理。本研究系统性地探讨了LVLMs注意力机制中视觉令牌和文本令牌之间的相关性。我们的实证分析揭示了缓存中视觉令牌中存在的大量冗余，在这些令牌被战略性地消除时，可以保持模型性能的同时显著加速上下文生成。受这些发现的启发，我们引入了一个精英观察窗，用于评估KV缓存中视觉组件的重要性，着重于稳定跨模态相关性建模，并增强多视角一致性。此外，我们还开发了一种适应性的按层预算分配策略，利用令牌重要性分布的强度和偏斜，与均匀分配相比展现了更优的效率。在多个LVLMs和基准测试上的全面评估表明，我们的方法在仅保留视觉KV缓存的10%的情况下，可以达到与完整缓存相当的性能，从而在不同批次大小和输入提示长度的情况下降低了29%到66%的解码延迟。值得注意的是，随着缓存保留率的下降，我们的方法相比现有方法显示出越来越大的性能优势。