LLM2D
KeepKV:消除KV缓存压缩中的输出扰动以实现高效LLM推理
KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference
作者: Yuxuan Tian, Zihan Wang, Yebo Peng, Aomufei Yuan, Zhiming Wang, Bairen Yi, Xin Liu, Yong Cui, Tong Yang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09936v1

摘要

arXiv:2504.09936v1 Announce Type: cross 摘要:大规模语言模型(LLMs)的有效推理受到不断增长的关键值(KV)缓存的阻碍,因此KV缓存压缩成为关键技术研究方向。传统方法通过基于注意力得分或位置启发式策略选择性地移除不太重要的KV缓存条目,导致信息丢失和幻觉。最近,已经探索了基于合并的策略,通过合并将要被丢弃的KV对来保留更多信息;然而,这些现有方法不可避免地在合并前后引入了注意力分布的一致性问题,导致输出扰动和生成质量下降。为了解决这一挑战,我们提出了KeepKV,这是一种新颖的自适应KV缓存合并方法,旨在在严格的内存约束下消除输出扰动并保持性能。KeepKV引入了选举票机制,记录合并历史并适应性调整注意力得分。此外,它还进一步利用了一种新颖的零推理-扰动合并方法,保持了注意力的一致性,并补偿了由于缓存合并而导致的注意力损失。KeepKV成功地在显著压缩的缓存中保留了重要的上下文信息。在各种基准和LLM架构上的广泛实验表明,KeepKV显著减少了内存使用,通过超过2倍的推理吞吐量提升,并且即使在10%的KV缓存预算下,也能保持卓越的生成质量。