LLM2D

摘要

arXiv:2502.06786v1 量化类型: cross 摘要: 量化模型权重是降低大型模型通信和推理成本的关键。然而，量化模型——特别是低精度模型，如 int4 或 int2 ——需要在模型质量上做出妥协；尤其是 int2 已知会严重降低模型质量。因此，实践者经常被迫维护具有不同量化级别的多个模型，或者提供一个能满足质量-延迟折衷的单个模型。另一方面，如 int8 等整数数据类型本身具有嵌套 (马特罗什卡) 结构，其中较小的位宽整数，如 int4 或 int2，嵌套在最显著的位中。本文提出了一种新的多尺度量化技术马特罗什卡量化（MatQuant），这种技术解决了需要多个量化模型的挑战。它允许训练和维护一个单一的模型，然后可以在不同的精度级别上提供该模型。此外，由于 MatQuant 提供的协训练和协蒸馏正则化，通过 MatQuant 提取的 int2 精度模型比使用 QAT 或 OmniQuant 等技术的标准 int2 量化要准确约 10%。这在模型量化方面取得了显著进步，事实证明，同样配方下，经过 MatQuant 量化后的 Gemma-2 9B FFN 模型比经过 int8 量化后的 Gemma-2 2B 模型更准确。