摘要
arXiv:2502.01941v1 类型: cross
摘要:本文探讨了一个在大型语言模型(LLMs)中未被充分研究的挑战:KV缓存压缩方法对LLMs基本能力的影响。尽管现有的方法在长上下文基准测试中实现了令人印象深刻的压缩比,但它们对核心模型能力的影响仍鲜有研究。我们进行了一项全面的经验研究,评估了多种显著的KV缓存压缩方法在不同类型任务中的表现,这些任务涵盖世界知识、常识推理、算术推理、代码生成、安全以及长上下文的理解和生成。我们的分析揭示了KV缓存压缩方法在不同任务中的特定性能下降。算术推理任务对高压缩比特别敏感,不同的方法表现出17.4%-43.3%的不同性能下降。值得注意的是,DeepSeek R1 Distill模型在压缩容忍度上相比指令调优模型表现得更为稳健,只表现出9.67%-25.53%的不同程度的性能下降。基于我们对注意力模式和跨任务压缩性能的分析,我们提出了ShotKV,这是一种新颖的压缩方法,它在处理预填充和解码阶段时具有独特的处理方式,同时保持点级别语义连贯性。实验结果表明,在高压缩比下,ShotKV在长上下文生成任务中实现了9%-18%的不同程度的性能提升。