LLM2D

摘要

键值 (KV) 缓存已成为加速大型语言模型 (LLM) 推理生成速度的实际方法。然而，随着序列长度的增加，不断增长的缓存需求已将 LLM 推理转变为内存绑定问题，极大地限制了系统吞吐量。现有的方法依赖于丢弃不重要的标记或对所有条目进行统一量化。然而，此类方法通常会产生较高的近似误差来表示压缩矩阵。自回归解码过程进一步加剧了每一步的误差，导致模型生成出现严重偏差，性能下降。为了应对这一挑战，我们提出了 GEAR，这是一个高效的 KV 缓存压缩框架，可以实现接近无损的高比率压缩。GEAR 首先将量化应用于大多数具有相似量级的条目，以实现超低精度。然后，它使用低秩矩阵来近似量化误差，并使用稀疏矩阵来弥补来自异常条目的个体误差。通过巧妙地整合三种技术，GEAR 能够充分利用其协同潜力。我们的实验表明，与其他方法相比，GEAR 实现了接近无损的 4 位 KV 缓存压缩，吞吐量提高了高达 2.38 倍，同时将峰值内存大小降低了高达 2.29 倍。我们的代码已在 https://github.com/HaoKang-Timmy/GEAR 上公开发布。