LLM2D
金字塔KV:基于金字塔信息漏斗的动态KV缓存压缩
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling
作者: Zefan Cai, Yichi Zhang, Bofei Gao, Yuliang Liu, Yucheng Li, Tianyu Liu, Keming Lu, Wayne Xiong, Yue Dong, Junjie Hu, Wen Xiao
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2406.02069v4

摘要

arXiv:2406.02069v4 宣告类型:替换交叉 摘要:在本研究中,我们调查了注意力机制在大型语言模型(LLMs)中是否通过明显的模式汇聚信息以处理长上下文。我们的观察结果表明,LLMs 通过金字塔信息汇聚的方式进行信息聚合,其中注意机制在较低层分散,在逐渐特化的上下文中不断凝聚,最终集中于关键的标记(也称为大规模激活或注意陷阱)上。受到这些洞察的启发,我们开发了 PyramidKV,这是一种新颖且有效的KV缓存压缩方法。该方法在不同层动态调整KV缓存大小,在较低层分配更多缓存,在较高层分配较少缓存,与传统的保持一致KV缓存大小的方法不同。利用 LongBench 基准进行的实验评估显示,PyramidKV 在保持与全KV缓存模型相同性能的同时,仅保留了12%的KV缓存,从而显著减少了内存使用。在强调内存效率的场景中,仅保持0.7%的KV缓存时,PyramidKV 超过了其他KV缓存压缩技术,在TREC数据集上实现了高达20.5的绝对准确率改进。在Needle-in-a-Haystack实验中,PyramidKV 在LLMs中维护长上下文理解方面优于其他方法;值得注意的是,仅保留128个KV缓存条目就使LLAMA-3-70B模型实现了100.0 Acc. 的性能。