摘要
arXiv:2406.01561v4 公告类型: 替换-交叉
摘要:在大量图文对的基础上训练的基于扩散的过程文本转图像生成模型已经展示了生成与文本描述相符的逼真图像的能力。然而,这些模型的一个显著局限性是其缓慢的样本生成过程,这需要通过同一网络进行迭代细化。为了解决这一问题,我们提出了一种数据驱动的引导蒸馏方法,该方法可以在无法访问实际训练数据的情况下高效地蒸馏预训练的稳定扩散模型,这些数据常常受限于法律、隐私或成本问题。该方法通过增加一项基于分数身份蒸馏(Score identity Distillation, SiD)的新颖策略Long and Short Classifier-Free Guidance (LSG) 来改进,这种策略不仅在评估预训练的扩散模型时应用了分类器无引导(Classifier-Free Guidance, CFG),还在训练和评估假分数网络时也应用了这种策略。我们使用基于分数身份的近似值结合我们提出的引导策略优化了基于模型的显式分数匹配损失,在实际计算中进行优化。通过仅使用由其一阶生成器生成的合成图像进行训练,我们的数据驱动蒸馏方法快速提高了FID和CLIP得分,同时保持了竞争力的CLIP得分,实现了在无数据情况下FID的最先进性能。值得注意的是,对Stable Diffusion 1.5的一次性蒸馏在COCO-2014验证集上的FID值为8.15,是数据驱动设置下的最低记录值。我们的代码和检查点可在 https://github.com/mingyuanzhou/SiD-LSG 获取。