LLM2D

摘要

arXiv:2502.04420v1 宣布类型: 横向摘要: 在长上下文和大批次大小的情景下，KV缓存量化可以提高大型语言模型（LLMs）的推理吞吐量和延迟，同时保持LLMs的有效性。然而，当前的方法存在三个未解决的问题：忽略了层间对KV缓存量化的影响灵敏度，在线进行精细调整的高昂开销，以及对不同LLMs和约束条件的较低灵活性。因此，我们深入分析了层间变压器注意力模式与KV缓存量化误差之间的固有关系，并探讨了为什么关键缓存比值存缓存对于量化误差减少更重要。我们进一步提出了一种简单而有效的框架KVTuner，以多目标优化方式自适应搜索适用于粗粒度KV缓存的最佳硬件友好层间KV量化精度配对，并直接在线推理过程中使用 Offline 搜索到的配置。为了减少 Offline 校准的计算成本，我们利用层内KV精度配对剪枝和层间聚类来减少搜索空间。实验结果表明，我们可以在 LLMs 如 llama-3.1-8B-Instruct 和敏感模型如 Qwen2.5-7B-Instruct 的数学推理任务中实现几乎无损的 3.25 位混合精度 KV 缓存量化，并在各种上下文长度上，相比于 KV8 量化，推理吞吐量可提高 38.3%。