LLM2D
d-Sketch:无需重新训练预训练潜在扩散模型以提高绘图到图像翻译的视觉保真度
d-Sketch: Improving Visual Fidelity of Sketch-to-Image Translation with Pretrained Latent Diffusion Models without Retraining
作者: Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal, Michael Blumenstein
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.14007v1

摘要

arXiv:2502.14007v1 类型: cross 摘要:在图像到图像转换中,结构指导允许对合成图像的形状进行精细控制。从用户指定的粗糙手绘草图生成高質量的真实图像是一项旨在对条件生成过程施加结构约束的任务。尽管从内容创作和学术研究的众多应用案例来看,这一前提非常吸引人,但由于自由手绘草图中存在的大量歧义性,该问题变得根本上具有挑战性。此外,形状一致性和真实生成之间的权衡问题进一步增加了该过程的复杂性。现有的基于生成对抗网络(GANs)的方法通常使用条件GAN或GAN反向,经常需要针对特定应用的数据和优化目标。最近引入的去噪扩散概率模型(DDPMs)在一般的图像合成中实现了低级视觉属性的生成飞跃。然而,直接在特定领域子任务上对大规模扩散模型进行重新训练往往由于庞大的计算成本和不足的数据而极其困难。在本文中,我们介绍了一种利用大规模扩散模型的特征泛化能力进行素描到图像转换的技术,而无需重新训练。特别是,我们使用一个可学习的轻量级映射网络,实现源域到目标域的潜在特征转换。实验结果表明,所提出的方法在定性和定量基准中均优于现有技术,能够从粗糙的手绘草图中生成高分辨率的真实图像。