LLM2D
在KV缓存压缩条件下,LLM能维持其基础能力吗?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
作者: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01941v1

摘要

arXiv:2502.01941v1 Announce Type: cross 摘要:这篇论文探讨了大型语言模型(LLMs)中一个尚未充分研究的挑战:KV缓存压缩方法对LLMs根本能力的影响。虽然现有方法在长上下文基准测试中取得了令人印象深刻的压缩比,但它们对核心模型能力的影响尚未充分研究。我们进行了一项综合的实证研究,评估了各种知名的KV缓存压缩方法在不同任务中的表现,这些任务涵盖了世界知识、常识推理、算术推理、代码生成、安全性以及长期上下文的理解与生成。我们的分析揭示了KV缓存压缩方法在不同任务中表现出特定的性能下降。算术推理任务特别敏感于激烈的压缩,不同方法的性能下降幅度在17.4%-43.3%之间。值得注意的是,DeepSeek R1 Distill模型表现出更强的压缩容忍度,相较于指令微调模型,其性能下降幅度仅为9.67%-25.53%。基于我们对注意力模式和跨任务压缩性能的分析,我们提出了ShotKV,这是一种新颖的压缩方法,它在预填和解码阶段分别处理问题,同时保持短程语义连贯性。实验结果显示,在激烈的压缩比下,ShotKV在长上下文生成任务中取得了9%-18%的性能提升。