LLM2D

摘要

arXiv:2501.16383v2 通知类型: replace-cross 摘要：键值（KV）缓存通过避免重新计算过去的KV，促进了高效的大规模语言模型（LLMs）推理。随着批量大小和上下文长度的增加，过大的KV缓存成为显著的内存瓶颈，突显了高效压缩的必要性。现有的KV量化依赖于精细的量化或保留大量高比特宽度的缓存，两者都牺牲了压缩比，并且在极端低的平均比特宽度下通常无法保持鲁棒性。在本文中，我们探索了旋转技术在2位KV量化中的潜力，并提出了RotateKV，通过以下创新实现了准确且鲁棒的性能：（i）感知离群值的旋转，通过通道重排来适应不同通道的离群值分布，而不牺牲快速沃尔什-哈达玛变换（FWHT）的计算效率；（ii）预RoPE分组头旋转，减轻了旋转位置嵌入（RoPE）对提出感知离群值旋转的影响，并进一步在头之间平滑离群值；（iii）注意陷阱感知量化，利用大规模激活来精确识别并保护注意陷阱。RotateKV在使用LLaMA-2-13B时，使用2位量化在WikiText-2中实现了不到0.3的困惑度（PPL）降解，保持了强大的CoT推理能力和长上下文能力，在GSM8K中的降解不到1.7%，即使在较低的平均比特宽度下也优于现有方法。RotateKV还展示了3.97倍的峰值内存使用量减少，支持5.75倍更大的批量大小，并在解码阶段实现了2.32倍的速度提升。