LLM2D

摘要

arXiv:2406.02069v4 宣告类型：替换交叉摘要：在本研究中，我们调查了注意力机制在大型语言模型（LLMs）中是否通过明显的模式汇聚信息以处理长上下文。我们的观察结果表明，LLMs 通过金字塔信息汇聚的方式进行信息聚合，其中注意机制在较低层分散，在逐渐特化的上下文中不断凝聚，最终集中于关键的标记（也称为大规模激活或注意陷阱）上。受到这些洞察的启发，我们开发了 PyramidKV，这是一种新颖且有效的KV缓存压缩方法。该方法在不同层动态调整KV缓存大小，在较低层分配更多缓存，在较高层分配较少缓存，与传统的保持一致KV缓存大小的方法不同。利用 LongBench 基准进行的实验评估显示，PyramidKV 在保持与全KV缓存模型相同性能的同时，仅保留了12%的KV缓存，从而显著减少了内存使用。在强调内存效率的场景中，仅保持0.7%的KV缓存时，PyramidKV 超过了其他KV缓存压缩技术，在TREC数据集上实现了高达20.5的绝对准确率改进。在Needle-in-a-Haystack实验中，PyramidKV 在LLMs中维护长上下文理解方面优于其他方法；值得注意的是，仅保留128个KV缓存条目就使LLAMA-3-70B模型实现了100.0 Acc. 的性能。