摘要
arXiv:2502.06786v1 量化类型: cross
摘要: 量化模型权重是降低大型模型通信和推理成本的关键。然而,量化模型——特别是低精度模型,如 int4 或 int2 ——需要在模型质量上做出妥协;尤其是 int2 已知会严重降低模型质量。因此,实践者经常被迫维护具有不同量化级别的多个模型,或者提供一个能满足质量-延迟折衷的单个模型。另一方面,如 int8 等整数数据类型本身具有嵌套 (马特罗什卡) 结构,其中较小的位宽整数,如 int4 或 int2,嵌套在最显著的位中。本文提出了一种新的多尺度量化技术马特罗什卡量化(MatQuant),这种技术解决了需要多个量化模型的挑战。它允许训练和维护一个单一的模型,然后可以在不同的精度级别上提供该模型。此外,由于 MatQuant 提供的协训练和协蒸馏正则化,通过 MatQuant 提取的 int2 精度模型比使用 QAT 或 OmniQuant 等技术的标准 int2 量化要准确约 10%。这在模型量化方面取得了显著进步,事实证明,同样配方下,经过 MatQuant 量化后的 Gemma-2 9B FFN 模型比经过 int8 量化后的 Gemma-2 2B 模型更准确。