LLM2D
RotateKV:通过异常值意识自适应旋转实现的LLMs的准确且 robust 的2位KV缓存量化
RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations
作者: Zunhai Su, Zhe Chen, Wang Shen, Hanyu Wei, Linge Li, Huangqi Yu, Kehong Yuan
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.16383v2

摘要

arXiv:2501.16383v2 通知类型: replace-cross 摘要:键值(KV)缓存通过避免重新计算过去的KV,促进了高效的大规模语言模型(LLMs)推理。随着批量大小和上下文长度的增加,过大的KV缓存成为显著的内存瓶颈,突显了高效压缩的必要性。现有的KV量化依赖于精细的量化或保留大量高比特宽度的缓存,两者都牺牲了压缩比,并且在极端低的平均比特宽度下通常无法保持鲁棒性。在本文中,我们探索了旋转技术在2位KV量化中的潜力,并提出了RotateKV,通过以下创新实现了准确且鲁棒的性能:(i)感知离群值的旋转,通过通道重排来适应不同通道的离群值分布,而不牺牲快速沃尔什-哈达玛变换(FWHT)的计算效率;(ii)预RoPE分组头旋转,减轻了旋转位置嵌入(RoPE)对提出感知离群值旋转的影响,并进一步在头之间平滑离群值;(iii)注意陷阱感知量化,利用大规模激活来精确识别并保护注意陷阱。RotateKV在使用LLaMA-2-13B时,使用2位量化在WikiText-2中实现了不到0.3的困惑度(PPL)降解,保持了强大的CoT推理能力和长上下文能力,在GSM8K中的降解不到1.7%,即使在较低的平均比特宽度下也优于现有方法。RotateKV还展示了3.97倍的峰值内存使用量减少,支持5.75倍更大的批量大小,并在解码阶段实现了2.32倍的速度提升。