摘要
文本到图像扩散模型能够生成令人印象深刻的结果,但对于希望进行细粒度控制的艺术家来说却是令人沮丧的工具。例如,一个常见的用例是在新的情境中创建特定实例的图像,即“身份保持生成”。这种设置以及许多其他任务(例如,重新照明)非常适合图像+文本条件生成模型。然而,直接训练这种模型缺乏高质量的配对数据。我们提出了一种名为“扩散自蒸馏”的方法,该方法利用预训练的文本到图像模型来生成其自身用于文本条件图像到图像任务的数据集。我们首先利用文本到图像扩散模型的上下文生成能力来创建图像网格,并在视觉语言模型的帮助下整理一个大型配对数据集。然后,我们使用整理好的配对数据集将文本到图像模型微调成文本+图像到图像模型。我们证明,扩散自蒸馏在各种身份保持生成任务中优于现有的零样本方法,并且与每实例微调技术具有竞争力,无需测试时优化。