摘要
arXiv:2502.02617v1 宣布类型: cross
摘要:大型语言模型(LLMs)在对其键值(KV)嵌入进行键值(KV)缓存时需要大量的内存,特别是在处理长距离上下文时。对这些KV嵌入进行量化是减少内存消耗的一种常见技术。本文介绍了一种新颖的量化方法PolarQuant,该方法结合了随机预处理和极坐标变换。我们的方法使用一种高效的递归算法将KV嵌入转换为极坐标,并然后对结果的角度进行量化。我们的核心见解是,在进行随机预处理后,极坐标表示中的角度具有紧密限定且高度集中的分布,并且其形式可以通过解析计算得出。这种良好的分布消除了传统的量化方法所需要的显式规范化步骤,这一步骤由于量化参数(例如零点和缩放因子)在每个数据块中需要以全精度存储,因此会带来显著的内存开销。PolarQuant避开了这一规范化步骤,从而实现了显著的内存节省。长上下文评估表明,PolarQuant在压缩KV缓存方面超过x4.2倍,同时在质量分数上超过最新方法。