LLM2D
VPTQ:面向大型语言模型的极低比特向量训练后量化
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
作者: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.17066v1

摘要

大幅提升模型尺寸极大地挑战了大型语言模型 (LLM) 的部署和推理。由于 LLM 权重中的冗余性,最近的研究集中于将权重量化推向极低比特(甚至低至 2 比特)。这减少了内存需求,优化了存储成本,并在推理过程中减少了内存带宽需求。然而,由于数值表示的限制,传统的基于标量的权重量化难以实现如此极低的比特。最近关于 LLM 的矢量量化 (VQ) 的研究表明,通过使用查找表将向量压缩成索引,可以实现极低比特模型量化。 本文介绍了用于 LLM 极低比特量化的矢量后训练量化 (VPTQ)。我们使用二阶优化来制定 LLM VQ 问题,并通过解决优化来指导我们的量化算法设计。我们进一步使用通道独立二阶优化来细化权重,从而实现粒度 VQ。此外,通过分解优化问题,我们提出了一种简短有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化,这提高了模型精度并进一步压缩了模型。我们的实验结果表明,VPTQ 在 LLaMA-2 上将模型量化困惑度降低了 0.01-0.34,在 Mistral-7B 上降低了 0.38-0.68,在 LLaMA-3 上降低了 4.41-7.34,优于 2 比特下的 SOTA,在 LLaMA-2 上平均精度提高了 0.79-1.5%,在 Mistral-7B 上提高了 1%,在 LLaMA-3 上提高了 11-22%,平均而言。我们只使用了量化算法执行时间的 10.4-18.6%,与 SOTA 相比,推理吞吐量提高了 1.6-1.8 倍。