LLM2D

摘要

arXiv:2302.14368v4 宣告类型: replace-cross 摘要：随着扩散模型展示了令人鼓舞的性能，人们投入了许多努力来提高扩散模型的可控性。然而，在扩散模型的训练过程中如何构建分离的潜在空间，以及如何自然地将分离的条件纳入采样过程仍然存在不足。本文中，我们提出了一种用于扩散模型特征分离的训练框架（FDiff）。我们进一步提出了两种采样方法，这些方法可以增强我们的扩散模型的逼真度，并且增强可控性。简而言之，我们根据扩散模型的去噪过程的归纳偏差，以两种潜在特征、空间内容掩码和扁平化风格嵌入的形式对扩散模型进行条件训练。我们将姿势/布局信息编码到内容特征中，将语义/风格信息编码到风格特征中。关于采样方法，我们首先通过打破条件输入之间的独立性假定，对可组合扩散模型（GCDM）进行了泛化，实验表明这种做法在真实生成中是有效的。其次，我们提出了时间步长依赖的权重调度方法，以进一步提高性能。我们还观察到，与现有方法相比，在图像操作和图像转换方面，我们提出的方法具有更好的可控性。