摘要
arXiv:2504.11423v1 Announce Type: cross
摘要:通过反转从前向加噪过程,扩散模型能够近似真实的数据分布,从而实现了卓越的图像生成。在训练过程中,这些模型在单次前向传递中从被加噪声的真实样本中预测扩散分数,而推理则需要从白噪声开始迭代去噪。这种训练与推理之间的差异阻碍了推理数据分布与训练数据分布之间的对齐,可能由于预测偏见和累积误差累积。为了解决这一问题,我们提出了一种直观但有效的微调框架,称为对抗扩散微调(ADT),通过在优化过程中激活推理过程,并通过对抗监督将最终输出与训练数据对齐。具体而言,为了实现稳健的对抗训练,ADT 特征包括一个由固定预训练骨干和轻量级可训练参数组成的双支网络判别器,结合了一种图像到图像的采样策略来平滑判别的困难,并保留原始的扩散损失以防止判别器作弊。此外,我们仔细地约束了沿着推理路径回传梯度的反向路径,而不会导致内存过载或梯度爆炸。最后,对 Stable Diffusion 模型(v1.5、XL 和 v3)进行的广泛实验表明,ADT 显著改善了数据分布对齐和图像质量。