LLM2D

摘要

arXiv:2502.02617v1 宣布类型: cross 摘要：大型语言模型（LLMs）在对其键值（KV）嵌入进行键值（KV）缓存时需要大量的内存，特别是在处理长距离上下文时。对这些KV嵌入进行量化是减少内存消耗的一种常见技术。本文介绍了一种新颖的量化方法PolarQuant，该方法结合了随机预处理和极坐标变换。我们的方法使用一种高效的递归算法将KV嵌入转换为极坐标，并然后对结果的角度进行量化。我们的核心见解是，在进行随机预处理后，极坐标表示中的角度具有紧密限定且高度集中的分布，并且其形式可以通过解析计算得出。这种良好的分布消除了传统的量化方法所需要的显式规范化步骤，这一步骤由于量化参数（例如零点和缩放因子）在每个数据块中需要以全精度存储，因此会带来显著的内存开销。PolarQuant避开了这一规范化步骤，从而实现了显著的内存节省。长上下文评估表明，PolarQuant在压缩KV缓存方面超过x4.2倍，同时在质量分数上超过最新方法。