摘要
arXiv:2504.05741v2 Announce Type: replace-cross
摘要:扩散变压器展示了卓越的生成质量,尽管需要更长的训练迭代和更多的推理步骤。在每次去噪步骤中,扩散变压器将嘈杂的输入编码以提取低频语义成分,然后使用相同的模块解码高频成分。这种方案造成了一种固有的优化困境:提取低频语义需要减少高频成分,这在语义编码与高频解码之间产生了冲突。为了解决这一挑战,我们提出了一种新的去耦扩散变压器(Decoupled Diffusion Transformer,简称DDT),其设计包括一个专门用于提取语义的条件编码器和一个专业的速度解码器。我们的实验表明,当模型规模增加时,更为强大的编码器能够获得性能提升。对于ImageNet 256×256,我们的DDT-XL/2达到新的最先进性能(近4倍于前一代扩散变压器的训练收敛速度),FID得分为1.31。对于ImageNet 512×512,我们的DDT-XL/2达到新的最先进FID得分为1.28。此外,作为有益的副产品,我们的去耦架构通过使相邻去噪步骤能够共享自我条件而提高了推理速度。为了最小化性能退化,我们提出了一种新颖的统计动态规划方法以识别最优的共享策略。