LLM2D

摘要

arXiv:2503.06790v2 宣告类型: 替换-交叉摘要: 最近将文本到图像（T2I）扩散模型应用于实际场景超分辨率（SR）的研究取得了显著的成果。然而，T2I和SR目标之间的基本不一致导致了推断速度和细节保真度之间的难题。具体来说，T2I任务优先采用多步逆向合成与文本提示一致的输出，并缩小潜在空间以减少生成复杂性。相反，SR任务在保留下分辨率输入信息的同时仅恢复高频细节，因此需要足够的潜在空间和较少的推断步骤。为了弥合这一差距，我们提出了一种一步扩散模型用于生成性细节恢复（GenDR），该模型源自一个潜在空间更宽的定制扩散模型。具体而言，我们通过表示对齐训练了一个新的SD2.1-VAE16（0.9B）以扩展潜在空间而不增加模型规模。关于步骤蒸馏，我们提出了一致评分身份蒸馏（CiD），它将SR任务特定的损失融入评分蒸馏中，以便利用更多的SR先验条件并使训练目标对齐。此外，我们提出了包含对抗学习和表示对齐的CiD（CiDA）以提升感知质量并加快训练。我们还优化了流程以实现更高效的推理。实验结果表明，GenDR在定量指标和视觉保真度方面均取得了最优性能。