LLM2D

摘要

大幅提升模型尺寸极大地挑战了大型语言模型 (LLM) 的部署和推理。由于 LLM 权重中的冗余性，最近的研究集中于将权重量化推向极低比特（甚至低至 2 比特）。这减少了内存需求，优化了存储成本，并在推理过程中减少了内存带宽需求。然而，由于数值表示的限制，传统的基于标量的权重量化难以实现如此极低的比特。最近关于 LLM 的矢量量化 (VQ) 的研究表明，通过使用查找表将向量压缩成索引，可以实现极低比特模型量化。本文介绍了用于 LLM 极低比特量化的矢量后训练量化 (VPTQ)。我们使用二阶优化来制定 LLM VQ 问题，并通过解决优化来指导我们的量化算法设计。我们进一步使用通道独立二阶优化来细化权重，从而实现粒度 VQ。此外，通过分解优化问题，我们提出了一种简短有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化，这提高了模型精度并进一步压缩了模型。我们的实验结果表明，VPTQ 在 LLaMA-2 上将模型量化困惑度降低了 0.01-0.34，在 Mistral-7B 上降低了 0.38-0.68，在 LLaMA-3 上降低了 4.41-7.34，优于 2 比特下的 SOTA，在 LLaMA-2 上平均精度提高了 0.79-1.5%，在 Mistral-7B 上提高了 1%，在 LLaMA-3 上提高了 11-22%，平均而言。我们只使用了量化算法执行时间的 10.4-18.6%，与 SOTA 相比，推理吞吐量提高了 1.6-1.8 倍。