LLM2D

摘要

大规模语言模型（LLMs）的部署往往受到键值（KV）缓存所需大量内存的限制，特别是在上下文长度增加时。现有减少KV缓存大小的方法包括对模型进行微调以学习压缩策略或利用注意力得分来减少序列长度。我们分析了基于仅解码器的Transformer模型中的注意力分布，观察到注意力分配模式在大多数层中保持一致。令人惊讶的是，我们发现缓存的KV对上的$L_2$和注意力得分之间存在明显的相关性，其中一个键嵌入的低$L_2$通常在解码期间会导致高注意力得分。这一发现表明，一个KV对的影响可能在被查询之前就由键嵌入本身决定。基于这一观察，我们根据键嵌入的$L_2$压缩KV缓存。我们的实验结果表明，这一简单策略在语言建模和大海捞针任务中可以将KV缓存大小减少50%，在密码检索任务中减少90%而不失准确性。此外，由于不依赖注意力得分，这种方法仍然兼容FlashAttention，从而具有更广泛的适用性。