摘要
本研究探讨了大型语言模型 (LLMs) 内部基于注意力的信息流是否通过明显的模式聚合,以进行长上下文处理。我们的观察表明,LLMs 通过金字塔信息漏斗聚合信息,其中注意力在较低层广泛分散,逐渐在特定上下文中整合,最终集中在较高层中的关键词元(即大量激活或注意力汇聚)。受这些见解的启发,我们开发了 PyramidKV,这是一种新颖且有效的 KV 缓存压缩方法。这种方法动态调整不同层级的 KV 缓存大小,在较低层分配更多缓存,在较高层分配更少缓存,这与传统的保持统一 KV 缓存大小的方法不同。我们使用 LongBench 基准进行的实验评估表明,PyramidKV 匹配了具有完整 KV 缓存的模型的性能,同时仅保留了 12% 的 KV 缓存,从而显着减少了内存使用量。在强调内存效率的场景中,仅保留 0.7% 的 KV 缓存时,PyramidKV 超越了其他 KV 缓存压缩技术,在 TREC 数据集上实现了高达 20.5 的绝对精度提升。在 Needle-in-a-Haystack 实验中,PyramidKV 在保持 LLMs 中的长期上下文理解方面优于竞争方法;值得注意的是,仅保留 128 个 KV 缓存条目,LLAMA-3-70B 模型就能实现 100% 的 Acc. 性能,与完整 KV 缓存的性能相匹配。