LLM2D

摘要

大规模语言模型 (LLM) 的规模扩展极大地挑战了其部署和推理。由于 LLM 权重存在冗余，最近的研究集中于将权重量化推向极低比特位数（甚至低至 2 位）。这降低了内存需求，优化了存储成本，并减少了推理过程中的内存带宽需求。然而，由于数值表示的限制，传统的基于标量的权重量化难以实现如此极低的比特位数。最近关于 LLM 的矢量量化 (VQ) 的研究表明，通过使用查找表将向量压缩为索引，可以实现极低比特位数的模型量化。本文介绍了一种用于 LLM 极低比特位数量化的矢量后训练量化 (VPTQ) 方法。我们使用二阶优化来制定 LLM VQ 问题，并通过求解优化来指导我们的量化算法设计。我们进一步使用通道独立二阶优化来细化权重，以实现粒度 VQ。此外，通过分解优化问题，我们提出了一种简短有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化，从而提高模型精度并进一步压缩模型。我们的实验结果表明，在 2 位量化下，VPTQ 在 LLaMA-2 上将模型量化困惑度降低了 0.01-0.34，在 Mistral-7B 上降低了 0.38-0.68，在 LLaMA-3 上降低了 4.41-7.34，优于现有最先进技术；在 LLaMA-2 上平均准确率提高了 0.79-1.5%，在 Mistral-7B 上提高了 1%，在 LLaMA-3 上提高了 11-22%（基于 QA 任务）。我们仅使用了 10.4-18.6% 的量化算法执行时间，与现有最先进技术相比，推理吞吐量提高了 1.6-1.8 倍。