LLM2D
无需训练的密集对齐扩散指导模块化条件图像合成
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis
作者: Zixuan Wang, Duo Peng, Feng Chen, Yuwei Yang, Yinjie Lei
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01515v1

摘要

arXiv:2504.01515v1 Announce 类型: cross 摘要: 条件图像合成是一项具有广泛应用的重要任务,例如艺术创作和虚拟现实。然而,当前的生成方法往往是针对特定任务的,处理范围狭窄,仅适用于受限条件。在本文中,我们提出了一种新颖的方法,将条件图像合成视为多样化的基础条件单元的模块化组合。具体而言,我们将条件分为三个主要单元:文本、布局和拖拽。为了对这些条件进行有效的控制,我们为每个条件设计了一个专门的对齐模块。对于文本条件,我们引入了密集概念对齐(DCA)模块,该模块通过利用各种文本概念实现密集的视觉-文本对齐。对于布局条件,我们提出了密集几何对齐(DGA)模块,以施加全面的几何约束,从而保持空间配置不改变。对于拖拽条件,我们引入了密集运动对齐(DMA)模块,以应用多层次的运动正则化,确保每个像素跟随其期望的轨迹,而不会产生视觉伪影。通过灵活地插入和组合这些对齐模块,我们的框架增强了模型对各种条件生成任务的适应性,并极大地扩展了其应用范围。大量的实验表明,我们的框架在包括文本描述、分割掩码(边界框)、拖拽操作及其组合等各类条件下的性能均优于现有方法。代码可在https://github.com/ZixuanWang0525/DADG获取。