LLM2D
SQuat: 子空间正交 KV 缓存量化
SQuat: Subspace-orthogonal KV Cache Quantization
作者: Hao Wang, Ligong Han, Kai Xu, Akash Srivastava
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.24358v1

摘要

arXiv:2503.24358v1 类型: cross 摘要: 关键值(KV)缓存通过存储先前生成的令牌的KV张量来加速LLM的解码过程。这减少了冗余计算,但以增加内存使用为代价。为减轻这种开销,现有方法将KV张量压缩为更低位表示;然而,随着生成更多令牌,量化误差可能会累积,可能导致不希望的输出。在本文中,我们引入了SQuat(子空间正交KV缓存量化)。它首先通过查询张量构造一个子空间,以捕获最重要的任务相关信息。在进行键张量量化时,它确保(去)量化的键与该子空间保持正交,从而最小化量化误差对注意力机制输出的影响。SQuat不需要模型微调,不需要额外的校准数据集进行离线学习,并且基于我们开发的理论框架。通过数值实验,我们展示了我们的方法将峰值内存减少了2.17到2.82倍,提高了吞吐量2.45到3.60倍,并且在现有KV缓存量化算法中取得了更优的基准测试得分。