摘要
arXiv:2411.00850v3 宣布类型: 替换-交叉
摘要:大型语言模型(LLMs)在解决复杂语言任务方面表现出色。然而,其庞大的参数数量为部署带来了巨大的挑战。因此,将LLMs压缩到低位数可以使其能够在资源受限的设备上部署。为了解决这一问题,我们提出了一种基于梯度的权重量化(GWQ)方法,这是第一个利用梯度来定位异常值的低位数权重量化方法,只需少量校准数据即可进行异常值检测。GWQ 优先在FP16精度下保留最好的1%异常值,而其余非异常值权重则以低位数存储。我们广泛评估了GWQ在包括语言建模、地面检测、大规模多任务语言理解以及视觉-语言问答在内的不同任务上。结果表明,使用GWQ量化的模型比其他量化方法表现更好。在量化过程中,GWQ 只需一个校准集即可实现有效的量化。此外,GWQ 在与原始模型相比时实现了1.2倍的推理加速,并有效减少了推理内存消耗。