LLM2D

摘要

扩散模型在各种图像生成任务中表现出色，但其高昂的计算成本和大内存占用阻碍了其在实际场景中的低延迟应用。量化是压缩和加速模型的有前途的方法。然而，由于扩散模型中激活范围广泛且随时间变化，现有方法无法同时保持低比特量化的精度和效率。为解决这一问题，我们提出了DilateQuant，一种新颖的扩散模型量化框架，能够在保持高效率的同时提供可比的精度。具体而言，我们敏锐地意识到许多未饱和的通道内权重，这些权重可以通过巧妙利用来减少激活范围，而无需额外的计算成本。基于这一洞察，我们提出了权重膨胀（Weight Dilation, WD），通过数学等效的缩放将未饱和的通道内权重最大程度地膨胀到受限范围内。WD无成本地将激活量化误差吸收到权重量化中。激活范围的减少使得激活量化变得容易，而权重范围保持不变，使得模型在训练阶段易于收敛。考虑到时间网络导致激活随时间变化，我们设计了时间并行量化器（Temporal Parallel Quantizer, TPQ），该量化器设置时间步长量化参数，并支持不同时间步长的并行量化，显著提高了性能并降低了时间成本。为进一步增强性能同时保持效率，我们引入了块级知识蒸馏（Block-wise Knowledge Distillation, BKD），以块级对齐量化模型与全精度模型。时间步长量化参数和权重的同步训练最小化了所需时间，而较短的反向传播路径减少了量化过程的内存占用。