摘要
arXiv:2501.12956v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)由于其巨大的资源需求而面临显著的部署挑战。虽然低比特量化权重可以减少内存使用并提高推理效率,但当前硬件缺乏对混合精度通用矩阵乘法(mpGEMM)的原生支持,导致基于去量化实现的低效性。此外,均匀量化方法往往无法充分捕捉权重分布,导致性能下降。我们提出了一种名为 GANQ(GPU-适应性非均匀量化)的层级后训练非均匀量化框架,该框架针对硬件高效的查找表基 mpGEMM 进行优化。GANQ 通过利用一个无训练、GPU-适应性的优化算法来高效地减少层级量化误差,从而实现优越的量化性能。广泛实验表明,GANQ 能够在 3 位和 4 位量化与最先进的方法相比,减少与 FP16 基线相比的困惑度差距。此外,当部署在单个 NVIDIA RTX 4090 GPU 上时,GANQ 的量化模型在基准模型上实现了高达 2.57 倍的速度提升,从而在 LLM 部署中提高了内存和推理效率。