LLM2D
GWQ: Gradient-意识权重量化for大型语言模型
GWQ: Gradient-Aware Weight Quantization for Large Language Models
作者: Yihua Shao, Yan Gu, Siyu Chen, Haiyang Liu, Zijian Ling, Minxi Yan, Ziyang Yan, Chenyu Zhang, Michele Magno, Haotong Qin, Yan Wang, Jingcai Guo, Ling Shao, Hao Tang
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2411.00850v3

摘要

arXiv:2411.00850v3 宣布类型: 替换-交叉 摘要:大型语言模型(LLMs)在解决复杂语言任务方面表现出色。然而,其庞大的参数数量为部署带来了巨大的挑战。因此,将LLMs压缩到低位数可以使其能够在资源受限的设备上部署。为了解决这一问题,我们提出了一种基于梯度的权重量化(GWQ)方法,这是第一个利用梯度来定位异常值的低位数权重量化方法,只需少量校准数据即可进行异常值检测。GWQ 优先在FP16精度下保留最好的1%异常值,而其余非异常值权重则以低位数存储。我们广泛评估了GWQ在包括语言建模、地面检测、大规模多任务语言理解以及视觉-语言问答在内的不同任务上。结果表明,使用GWQ量化的模型比其他量化方法表现更好。在量化过程中,GWQ 只需一个校准集即可实现有效的量化。此外,GWQ 在与原始模型相比时实现了1.2倍的推理加速,并有效减少了推理内存消耗。