LLM2D

摘要

arXiv:2503.24358v1 类型: cross 摘要: 关键值（KV）缓存通过存储先前生成的令牌的KV张量来加速LLM的解码过程。这减少了冗余计算，但以增加内存使用为代价。为减轻这种开销，现有方法将KV张量压缩为更低位表示；然而，随着生成更多令牌，量化误差可能会累积，可能导致不希望的输出。在本文中，我们引入了SQuat（子空间正交KV缓存量化）。它首先通过查询张量构造一个子空间，以捕获最重要的任务相关信息。在进行键张量量化时，它确保（去）量化的键与该子空间保持正交，从而最小化量化误差对注意力机制输出的影响。SQuat不需要模型微调，不需要额外的校准数据集进行离线学习，并且基于我们开发的理论框架。通过数值实验，我们展示了我们的方法将峰值内存减少了2.17到2.82倍，提高了吞吐量2.45到3.60倍，并且在现有KV缓存量化算法中取得了更优的基准测试得分。