LLM2D

摘要

arXiv:2503.24000v1 类型: cross 摘要: Key-Value 缓存（\texttt{KV} 缓存）压缩作为一种优化大型语言模型（LLM）服务的技术已经崭露头角。它主要通过减少 \texttt{KV} 缓存的内存消耗来降低计算成本。尽管已经开发了许多压缩算法，但在生产环境中的应用仍然不多。在本文中，我们从实用的角度重新审视主流的 \texttt{KV} 缓存压缩解决方案。我们的贡献有三个方面。首先，我们全面回顾了现有的 \texttt{KV} 缓存压缩算法和基准研究，并指出现有研究在性能衡量上的缺失环节，这可能阻碍其在实际中的应用。其次，我们实证评估了代表性的 \texttt{KV} 缓存压缩方法，发现了影响计算效率的两个关键问题：（1）虽然压缩 \texttt{KV} 缓存可以减少内存消耗，但当前实现（如 FlashAttention、PagedAttention）并未针对生产级别的 LLM 服务进行优化，导致吞吐量性能不佳；（2）压缩 \texttt{KV} 缓存可能会导致输出时间变长，从而增加端到端的延迟。我们进一步调查了单个样本的准确性能，揭示了在处理特定 LLM 任务时 \texttt{KV} 缓存压缩的内在限制。第三，我们提供了工具以照亮未来 \texttt{KV} 缓存压缩研究的方向，并促进其实用部署。这些工具已在 \href{https://github.com/LLMkvsys/rethink-kv-compression}{https://github.com/LLMkvsys/rethink-kv-compression} 中开源。