摘要
arXiv:2302.14368v4 宣告类型: replace-cross
摘要:随着扩散模型展示了令人鼓舞的性能,人们投入了许多努力来提高扩散模型的可控性。然而,在扩散模型的训练过程中如何构建分离的潜在空间,以及如何自然地将分离的条件纳入采样过程仍然存在不足。本文中,我们提出了一种用于扩散模型特征分离的训练框架(FDiff)。我们进一步提出了两种采样方法,这些方法可以增强我们的扩散模型的逼真度,并且增强可控性。简而言之,我们根据扩散模型的去噪过程的归纳偏差,以两种潜在特征、空间内容掩码和扁平化风格嵌入的形式对扩散模型进行条件训练。我们将姿势/布局信息编码到内容特征中,将语义/风格信息编码到风格特征中。关于采样方法,我们首先通过打破条件输入之间的独立性假定,对可组合扩散模型(GCDM)进行了泛化,实验表明这种做法在真实生成中是有效的。其次,我们提出了时间步长依赖的权重调度方法,以进一步提高性能。我们还观察到,与现有方法相比,在图像操作和图像转换方面,我们提出的方法具有更好的可控性。