摘要
键值 (KV) 缓存是服务基于 Transformer 的自回归大型语言模型 (LLM) 的关键组件,通过存储先前计算的 KV 向量来实现更快的推理。然而,其内存消耗随序列长度和批次大小线性增长,在 LLM 部署中构成重大瓶颈。现有的缓解此问题的方法包括:(1) 在上采样阶段集成的有效注意力变体,这需要大量参数调整,因此不适用于预训练的 LLM;(2) 测试时的 KV 缓存压缩,主要通过令牌剔除策略,这通常忽略层间依赖关系,并且可能是特定于任务的。
本文介绍了一种正交的 KV 缓存压缩方法。我们提出了一种 KV 权重矩阵的低秩近似方法,允许在现有基于 Transformer 的 LLM 中进行即插即用集成,而无需模型重新训练。为了有效地在权重级别压缩 KV 缓存,我们针对层级敏感性进行了调整,并引入了一种渐进压缩策略,这得到了我们关于压缩误差如何在深度网络中累积的理论分析的支持。我们的方法旨在无需在上采样阶段进行模型调整,也无需在测试阶段进行特定于任务的分析。对各种任务中从 8B 到 70B 参数的 LLaMA 模型进行的大量实验表明,我们的方法显着减少了 GPU 内存占用,同时保持了性能。