LLM2D

摘要

扩散模型在各种图像生成任务中展现出优异的性能，但其巨大的计算成本和内存占用阻碍了其在现实世界场景中的低延迟应用。量化是一种很有前景的压缩和加速模型的方法。然而，由于扩散模型中激活值的范围广泛且随时间变化，现有的方法无法在低比特量化中同时保持精度和效率。为了解决这个问题，我们提出了 DilateQuant，一个针对扩散模型的全新量化框架，它能够提供可比的精度和高效率。具体来说，我们敏锐地意识到许多未饱和的通道内权重，这些权重可以巧妙地利用，以在不增加计算成本的情况下减少激活值的范围。基于这一洞察，我们提出了权重膨胀 (WD)，它通过数学等效缩放将未饱和的通道内权重最大限度地膨胀到一个约束范围内。WD 无成本地将激活量化误差吸收进权重量化。激活值的范围减小，这使得激活量化变得容易。权重的范围保持不变，这使得模型在训练阶段易于收敛。考虑到时间网络导致激活值随时间变化，我们设计了一种时间并行量化器 (TPQ)，它设置时间步长量化参数并支持不同时间步长的并行量化，显著提高了性能并减少了时间成本。为了进一步提高性能并保持效率，我们引入了块级知识蒸馏 (BKD)，以在块级上将量化模型与全精度模型对齐。时间步长量化参数和权重的同步训练最大限度地减少了所需时间，而更短的反向传播路径减少了量化过程的内存占用。