LLM2D
无训练密集对齐扩散指导模块化条件图像合成
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis
作者: Zixuan Wang, Duo Peng, Feng Chen, Yuwei Yang, Yinjie Lei
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.01515v2

摘要

arXiv:2504.01515v2 宣告类型: 替换-交叉 摘要:条件图像生成是一个具有广泛应用的关键任务,例如艺术创作和虚拟现实。然而,当前的生成方法往往针对特定任务,范围狭窄,只能处理有限的条件并具有受限的应用性。在本文中,我们提出了一种新颖的方法,将条件图像生成视为多种基础条件单元的模块化组合。具体而言,我们将条件分为三个主要单元:文本、布局和拖动。为了有效控制这些条件,我们为每个条件设计了一个专用的对齐模块。对于文本条件,我们引入了一个密集概念对齐(DCA)模块,该模块通过利用多样化的文本概念实现密集的视觉-文本对齐。对于布局条件,我们提出了一种密集几何对齐(DGA)模块,用于施加全面的几何约束,以保持空间配置。对于拖动条件,我们引入了一种密集运动对齐(DMA)模块,以应用多级运动正则化,确保每个像素遵循其预期的轨迹,而不产生视觉伪影。通过灵活插入和组合这些对齐模块,我们的框架增强了模型对多种条件生成任务的适应性,并极大地扩展了其应用范围。广泛的实验表明,在文本描述、分割掩模(边界框)、拖动操作及其组合等各种条件下,我们的框架都表现出优秀的性能。代码可在 https://github.com/ZixuanWang0525/DADG 获取。