LLM2D
GEAR:一种高效的键值缓存压缩方案,用于实现近乎无损的 LLM 生成式推理
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM
作者: Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, Tuo Zhao
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2403.05527v4

摘要

键值 (KV) 缓存已成为加速大型语言模型 (LLM) 推理生成速度的实际方法。然而,随着序列长度的增加,不断增长的缓存需求已将 LLM 推理转变为内存绑定问题,极大地限制了系统吞吐量。现有的方法依赖于丢弃不重要的标记或对所有条目进行统一量化。然而,此类方法通常会产生较高的近似误差来表示压缩矩阵。自回归解码过程进一步加剧了每一步的误差,导致模型生成出现严重偏差,性能下降。为了应对这一挑战,我们提出了 GEAR,这是一个高效的 KV 缓存压缩框架,可以实现接近无损的高比率压缩。GEAR 首先将量化应用于大多数具有相似量级的条目,以实现超低精度。然后,它使用低秩矩阵来近似量化误差,并使用稀疏矩阵来弥补来自异常条目的个体误差。通过巧妙地整合三种技术,GEAR 能够充分利用其协同潜力。我们的实验表明,与其他方法相比,GEAR 实现了接近无损的 4 位 KV 缓存压缩,吞吐量提高了高达 2.38 倍,同时将峰值内存大小降低了高达 2.29 倍。我们的代码已在 https://github.com/HaoKang-Timmy/GEAR 上公开发布。