LLM2D
GenDR:闪电生成细节修复器
GenDR: Lightning Generative Detail Restorator
作者: Yan Wang, Shijie Zhao, Kai Chen, Kexin Zhang, Junlin Li, Li Zhang
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2503.06790v2

摘要

arXiv:2503.06790v2 宣告类型: 替换-交叉 摘要: 最近将文本到图像(T2I)扩散模型应用于实际场景超分辨率(SR)的研究取得了显著的成果。然而,T2I和SR目标之间的基本不一致导致了推断速度和细节保真度之间的难题。具体来说,T2I任务优先采用多步逆向合成与文本提示一致的输出,并缩小潜在空间以减少生成复杂性。相反,SR任务在保留下分辨率输入信息的同时仅恢复高频细节,因此需要足够的潜在空间和较少的推断步骤。为了弥合这一差距,我们提出了一种一步扩散模型用于生成性细节恢复(GenDR),该模型源自一个潜在空间更宽的定制扩散模型。具体而言,我们通过表示对齐训练了一个新的SD2.1-VAE16(0.9B)以扩展潜在空间而不增加模型规模。关于步骤蒸馏,我们提出了一致评分身份蒸馏(CiD),它将SR任务特定的损失融入评分蒸馏中,以便利用更多的SR先验条件并使训练目标对齐。此外,我们提出了包含对抗学习和表示对齐的CiD(CiDA)以提升感知质量并加快训练。我们还优化了流程以实现更高效的推理。实验结果表明,GenDR在定量指标和视觉保真度方面均取得了最优性能。