LLM2D

摘要

本研究探讨了大型语言模型 (LLMs) 内部基于注意力的信息流是否通过明显的模式聚合，以进行长上下文处理。我们的观察表明，LLMs 通过金字塔信息漏斗聚合信息，其中注意力在较低层广泛分散，逐渐在特定上下文中整合，最终集中在较高层中的关键词元（即大量激活或注意力汇聚）。受这些见解的启发，我们开发了 PyramidKV，这是一种新颖且有效的 KV 缓存压缩方法。这种方法动态调整不同层级的 KV 缓存大小，在较低层分配更多缓存，在较高层分配更少缓存，这与传统的保持统一 KV 缓存大小的方法不同。我们使用 LongBench 基准进行的实验评估表明，PyramidKV 匹配了具有完整 KV 缓存的模型的性能，同时仅保留了 12% 的 KV 缓存，从而显着减少了内存使用量。在强调内存效率的场景中，仅保留 0.7% 的 KV 缓存时，PyramidKV 超越了其他 KV 缓存压缩技术，在 TREC 数据集上实现了高达 20.5 的绝对精度提升。在 Needle-in-a-Haystack 实验中，PyramidKV 在保持 LLMs 中的长期上下文理解方面优于竞争方法；值得注意的是，仅保留 128 个 KV 缓存条目，LLAMA-3-70B 模型就能实现 100% 的 Acc. 性能，与完整 KV 缓存的性能相匹配。