LLM2D

摘要

大型语言模型 (LLM) 在语言相关任务中展现出卓越的能力，但其部署由于巨大的内存和存储需求而面临着重大挑战。仅权重量化已成为一种很有前景的解决方案，它在不牺牲太多性能的情况下显著降低了内存和存储需求。在本研究中，我们介绍了 SignRound，这是一种利用符号梯度下降 (SignSGD) 在仅 200 步内优化舍入值和权重裁剪的方法。SignRound 集成了量化感知训练 (QAT) 和训练后量化 (PTQ) 的优点，在 2 到 4 位上提供了卓越的结果，同时最大限度地降低了调优成本并避免了额外的推理开销。例如，根据 11 个任务的平均零样本准确率衡量，SignRound 在 2 位时实现了 6.91% 到 33.22% 的绝对平均准确率提升。它还在最近的模型中展现出强大的泛化能力，在大多数情况下实现了接近无损的 4 位量化。源代码可在 https://github.com/intel/auto-round 公开获取。