LLM2D
AirCache:激活多模态相关性KV缓存压缩以实现高效的大规模视觉语言模型推理
AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
作者: Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23956v1

摘要

arXiv:2503.23956v1 类型: cross 摘要: 近年来,在大规模视觉语言模型(LVLMs)方面的最新进展引起了广泛关注,这主要是因为它们在推理方面表现出色,通用化能力也很强。然而,处理大量的视觉令牌和生成长上下文输出会导致巨大的计算开销,从而对关键值(KV)缓存产生巨大的需求。为了解决这一关键瓶颈,我们提出了AirCache,一种新的KV缓存压缩方法,旨在加速LVLMs推理。本研究系统性地探讨了LVLMs注意力机制中视觉令牌和文本令牌之间的相关性。我们的实证分析揭示了缓存中视觉令牌中存在的大量冗余,在这些令牌被战略性地消除时,可以保持模型性能的同时显著加速上下文生成。受这些发现的启发,我们引入了一个精英观察窗,用于评估KV缓存中视觉组件的重要性,着重于稳定跨模态相关性建模,并增强多视角一致性。此外,我们还开发了一种适应性的按层预算分配策略,利用令牌重要性分布的强度和偏斜,与均匀分配相比展现了更优的效率。在多个LVLMs和基准测试上的全面评估表明,我们的方法在仅保留视觉KV缓存的10%的情况下,可以达到与完整缓存相当的性能,从而在不同批次大小和输入提示长度的情况下降低了29%到66%的解码延迟。值得注意的是,随着缓存保留率的下降,我们的方法相比现有方法显示出越来越大的性能优势。