LLM2D
重新思考大型语言模型服务中键值缓存压缩技术
Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving
作者: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.24000v1

摘要

arXiv:2503.24000v1 类型: cross 摘要: Key-Value 缓存(\texttt{KV} 缓存)压缩作为一种优化大型语言模型(LLM)服务的技术已经崭露头角。它主要通过减少 \texttt{KV} 缓存的内存消耗来降低计算成本。尽管已经开发了许多压缩算法,但在生产环境中的应用仍然不多。在本文中,我们从实用的角度重新审视主流的 \texttt{KV} 缓存压缩解决方案。我们的贡献有三个方面。首先,我们全面回顾了现有的 \texttt{KV} 缓存压缩算法和基准研究,并指出现有研究在性能衡量上的缺失环节,这可能阻碍其在实际中的应用。其次,我们实证评估了代表性的 \texttt{KV} 缓存压缩方法,发现了影响计算效率的两个关键问题:(1)虽然压缩 \texttt{KV} 缓存可以减少内存消耗,但当前实现(如 FlashAttention、PagedAttention)并未针对生产级别的 LLM 服务进行优化,导致吞吐量性能不佳;(2)压缩 \texttt{KV} 缓存可能会导致输出时间变长,从而增加端到端的延迟。我们进一步调查了单个样本的准确性能,揭示了在处理特定 LLM 任务时 \texttt{KV} 缓存压缩的内在限制。第三,我们提供了工具以照亮未来 \texttt{KV} 缓存压缩研究的方向,并促进其实用部署。这些工具已在 \href{https://github.com/LLMkvsys/rethink-kv-compression}{https://github.com/LLMkvsys/rethink-kv-compression} 中开源。