摘要
arXiv:2504.05741v1 类别:交叉学科
摘要:去噪变换器展示了令人瞩目的生成质量,尽管需要更长的训练迭代和更多的推理步骤。在每个去噪步骤中,去噪变换器将噪音输入编码以提取低频语义成分,然后使用相同的模块解码高频成分。这种方案创造了一个固有的优化困境:提取低频语义需要减少高频成分,这在语义编码和高频解码之间产生了矛盾。为了解决这一挑战,我们提出了一种新的**D**ecoupled**D**iffusion**T**ransformer(**DDT**),具有一个分离的设计:专用条件编码器用于语义提取,以及一个专门的速度解码器。我们的实验表明,随着模型大小的增加,更大的编码器能够获得性能改进。对于 ImageNet 256×256,我们的 DDT-XL/2 达到了新的最佳性能(与之前的方法相比,训练收敛速度快近 4 倍,FID 为 1.31)。对于 ImageNet 512×512,我们的 DDT-XL/2 达到了新的最佳 FID 为 1.28。此外,作为附带的好处,我们的解耦架构通过使相邻去噪步骤之间能够共享自我条件而提高了推理速度。为了最小化性能下降,我们提出了一个新的统计动态规划方法来确定最优的共享策略。