摘要
arXiv:2502.13176v1 跨域公告类型:交叉
摘要:在大型语言模型(LLM)推理中,键值(KV)缓存(KV-caches)对于降低时间复杂度至关重要。然而,随着上下文长度的增长,它们会导致GPU内存呈线性增长。虽然最近的工作探索了KV-cache的驱逐和压缩策略以减少内存使用,但它们经常考虑所有注意力头的统一KV-cache,导致性能不佳。我们提出了BaKlaVa方法,该方法通过估计每个KV-cache的重要性来为模型中的每个单独的KV-cache分配最优内存。我们的实证分析表明,并非所有KV-cache对LLM性能都同样关键。通过一次性剖析方法,BaKlaVa为每个KV-cache分配了最优内存预算。我们在LLaMA-3-8B和Qwen2.5-7B模型上评估了该方法,在保持基线性能的同时,在较低压缩级别实现了高达70%的压缩率,并在较高压缩水平下提供了数量级的准确度改进。