摘要
大型语言模型 (LLM) 在语言相关任务中展现出卓越的能力,但其部署由于巨大的内存和存储需求而面临着重大挑战。仅权重量化已成为一种很有前景的解决方案,它在不牺牲太多性能的情况下显著降低了内存和存储需求。在本研究中,我们介绍了 SignRound,这是一种利用符号梯度下降 (SignSGD) 在仅 200 步内优化舍入值和权重裁剪的方法。SignRound 集成了量化感知训练 (QAT) 和训练后量化 (PTQ) 的优点,在 2 到 4 位上提供了卓越的结果,同时最大限度地降低了调优成本并避免了额外的推理开销。例如,根据 11 个任务的平均零样本准确率衡量,SignRound 在 2 位时实现了 6.91% 到 33.22% 的绝对平均准确率提升。它还在最近的模型中展现出强大的泛化能力,在大多数情况下实现了接近无损的 4 位量化。源代码可在 https://github.com/intel/auto-round 公开获取。