LLM2D

摘要

arXiv:2501.12956v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）由于其巨大的资源需求而面临显著的部署挑战。虽然低比特量化权重可以减少内存使用并提高推理效率，但当前硬件缺乏对混合精度通用矩阵乘法（mpGEMM）的原生支持，导致基于去量化实现的低效性。此外，均匀量化方法往往无法充分捕捉权重分布，导致性能下降。我们提出了一种名为 GANQ（GPU-适应性非均匀量化）的层级后训练非均匀量化框架，该框架针对硬件高效的查找表基 mpGEMM 进行优化。GANQ 通过利用一个无训练、GPU-适应性的优化算法来高效地减少层级量化误差，从而实现优越的量化性能。广泛实验表明，GANQ 能够在 3 位和 4 位量化与最先进的方法相比，减少与 FP16 基线相比的困惑度差距。此外，当部署在单个 NVIDIA RTX 4090 GPU 上时，GANQ 的量化模型在基准模型上实现了高达 2.57 倍的速度提升，从而在 LLM 部署中提高了内存和推理效率。