LLM2D

摘要

arXiv:2411.00850v3 宣布类型: 替换-交叉摘要：大型语言模型（LLMs）在解决复杂语言任务方面表现出色。然而，其庞大的参数数量为部署带来了巨大的挑战。因此，将LLMs压缩到低位数可以使其能够在资源受限的设备上部署。为了解决这一问题，我们提出了一种基于梯度的权重量化（GWQ）方法，这是第一个利用梯度来定位异常值的低位数权重量化方法，只需少量校准数据即可进行异常值检测。GWQ 优先在FP16精度下保留最好的1%异常值，而其余非异常值权重则以低位数存储。我们广泛评估了GWQ在包括语言建模、地面检测、大规模多任务语言理解以及视觉-语言问答在内的不同任务上。结果表明，使用GWQ量化的模型比其他量化方法表现更好。在量化过程中，GWQ 只需一个校准集即可实现有效的量化。此外，GWQ 在与原始模型相比时实现了1.2倍的推理加速，并有效减少了推理内存消耗。