LLM2D
KVTuner:感知灵敏度的分层混合精度 KV 缓存量化,实现高效且近似无损的LLM推理
KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference
作者: Xing Li, Zeyu Xing, Yiming Li, Linping Qu, Hui-Ling Zhen, Wulong Liu, Yiwu Yao, Sinno Jialin Pan, Mingxuan Yuan
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04420v1

摘要

arXiv:2502.04420v1 宣布类型: 横向 摘要: 在长上下文和大批次大小的情景下,KV缓存量化可以提高大型语言模型(LLMs)的推理吞吐量和延迟,同时保持LLMs的有效性。然而,当前的方法存在三个未解决的问题:忽略了层间对KV缓存量化的影响灵敏度,在线进行精细调整的高昂开销,以及对不同LLMs和约束条件的较低灵活性。因此,我们深入分析了层间变压器注意力模式与KV缓存量化误差之间的固有关系,并探讨了为什么关键缓存比值存缓存对于量化误差减少更重要。我们进一步提出了一种简单而有效的框架KVTuner,以多目标优化方式自适应搜索适用于粗粒度KV缓存的最佳硬件友好层间KV量化精度配对,并直接在线推理过程中使用 Offline 搜索到的配置。为了减少 Offline 校准的计算成本,我们利用层内KV精度配对剪枝和层间聚类来减少搜索空间。实验结果表明,我们可以在 LLMs 如 llama-3.1-8B-Instruct 和敏感模型如 Qwen2.5-7B-Instruct 的数学推理任务中实现几乎无损的 3.25 位混合精度 KV 缓存量化,并在各种上下文长度上,相比于 KV8 量化,推理吞吐量可提高 38.3%。