LLM2D

摘要

大型语言模型（LLM）通过监督微调在各种下游任务中取得了优异的性能。然而，下游任务的多样性和实际需求使得部署多个全参数微调模型具有挑战性。现有的压缩增量权重的方法难以实现超高压缩，无法最小化部署开销。为了解决上述问题，我们提出了一种新颖的分布驱动的增量压缩框架DeltaDQ，该框架利用分组 dropout 和单独量化来实现增量权重的超高压缩。我们观察到，增量权重的矩阵计算中间结果表现出极小的方差和最小-最大范围特征，称为平衡中间结果。利用这一现象，我们引入了分组 dropout，使用最佳分组大小对增量权重进行 dropout。此外，使用单独量化，稀疏权重被量化并分解以实现更低的比特数。实验结果表明，与不同参数规模的 WizardMath 和 WizardCoder 模型的基线相比，DeltaDQ 实现了 16 倍的压缩，并提高了准确性。此外，DeltaDQ 展示了超高压缩比的能力，为 WizardMath-7B 模型实现了 128 倍的压缩，为 WizardMath-70B 模型实现了 512 倍的压缩。