LLM2D

摘要

arXiv:2502.13176v1 跨域公告类型：交叉摘要：在大型语言模型（LLM）推理中，键值（KV）缓存（KV-caches）对于降低时间复杂度至关重要。然而，随着上下文长度的增长，它们会导致GPU内存呈线性增长。虽然最近的工作探索了KV-cache的驱逐和压缩策略以减少内存使用，但它们经常考虑所有注意力头的统一KV-cache，导致性能不佳。我们提出了BaKlaVa方法，该方法通过估计每个KV-cache的重要性来为模型中的每个单独的KV-cache分配最优内存。我们的实证分析表明，并非所有KV-cache对LLM性能都同样关键。通过一次性剖析方法，BaKlaVa为每个KV-cache分配了最优内存预算。我们在LLaMA-3-8B和Qwen2.5-7B模型上评估了该方法，在保持基线性能的同时，在较低压缩级别实现了高达70%的压缩率，并在较高压缩水平下提供了数量级的准确度改进。