LLM2D

摘要

尽管扩散模型在许多生成任务上表现出色，但为了生成逼真的样本，它们需要大量的采样步骤。这促使研究界开发有效的方法，将预训练的扩散模型蒸馏成更高效的模型，但这些方法通常仍然需要少步推理，或者性能远不如底层模型。在本文中，我们提出了分数隐式匹配（SIM），这是一种将预训练扩散模型蒸馏成单步生成模型的新方法，同时保持与原始模型几乎相同的样本生成能力，并且无需数据，不需要蒸馏的训练样本。该方法基于这样一个事实：虽然传统的基于分数的损失对于生成模型来说难以最小化，但在某些条件下，我们可以有效地计算扩散模型和生成器之间广泛类别基于分数的散度的梯度。SIM 在单步生成器上显示出强大的经验性能：在 CIFAR10 数据集上，它在无条件生成中实现了 2.06 的 FID，在类条件生成中实现了 1.96 的 FID。此外，通过将 SIM 应用于领先的基于 Transformer 的扩散模型，我们为文本到图像 (T2I) 生成蒸馏出一个单步生成器，该生成器在没有性能下降的情况下获得了 6.42 的美学分数，明显优于其他单步生成器，包括 SDXL-TURBO（5.33）、SDXL-LIGHTNING（5.34）和 HYPER-SDXL（5.85）。我们将与本文一起发布这个面向行业的基于 Transformer 的单步 T2I 生成器。