LLM2D
VPTQ:用于大型语言模型的极低比特向量训练后量化
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
作者: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2409.17066v2

摘要

大规模语言模型 (LLM) 的规模扩展极大地挑战了其部署和推理。由于 LLM 权重存在冗余,最近的研究集中于将权重量化推向极低比特位数(甚至低至 2 位)。这降低了内存需求,优化了存储成本,并减少了推理过程中的内存带宽需求。然而,由于数值表示的限制,传统的基于标量的权重量化难以实现如此极低的比特位数。最近关于 LLM 的矢量量化 (VQ) 的研究表明,通过使用查找表将向量压缩为索引,可以实现极低比特位数的模型量化。 本文介绍了一种用于 LLM 极低比特位数量化的矢量后训练量化 (VPTQ) 方法。我们使用二阶优化来制定 LLM VQ 问题,并通过求解优化来指导我们的量化算法设计。我们进一步使用通道独立二阶优化来细化权重,以实现粒度 VQ。此外,通过分解优化问题,我们提出了一种简短有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化,从而提高模型精度并进一步压缩模型。我们的实验结果表明,在 2 位量化下,VPTQ 在 LLaMA-2 上将模型量化困惑度降低了 0.01-0.34,在 Mistral-7B 上降低了 0.38-0.68,在 LLaMA-3 上降低了 4.41-7.34,优于现有最先进技术;在 LLaMA-2 上平均准确率提高了 0.79-1.5%,在 Mistral-7B 上提高了 1%,在 LLaMA-3 上提高了 11-22%(基于 QA 任务)。我们仅使用了 10.4-18.6% 的量化算法执行时间,与现有最先进技术相比,推理吞吐量提高了 1.6-1.8 倍。