LLM2D

摘要

arXiv:2504.01515v1 Announce 类型: cross 摘要: 条件图像合成是一项具有广泛应用的重要任务，例如艺术创作和虚拟现实。然而，当前的生成方法往往是针对特定任务的，处理范围狭窄，仅适用于受限条件。在本文中，我们提出了一种新颖的方法，将条件图像合成视为多样化的基础条件单元的模块化组合。具体而言，我们将条件分为三个主要单元：文本、布局和拖拽。为了对这些条件进行有效的控制，我们为每个条件设计了一个专门的对齐模块。对于文本条件，我们引入了密集概念对齐（DCA）模块，该模块通过利用各种文本概念实现密集的视觉-文本对齐。对于布局条件，我们提出了密集几何对齐（DGA）模块，以施加全面的几何约束，从而保持空间配置不改变。对于拖拽条件，我们引入了密集运动对齐（DMA）模块，以应用多层次的运动正则化，确保每个像素跟随其期望的轨迹，而不会产生视觉伪影。通过灵活地插入和组合这些对齐模块，我们的框架增强了模型对各种条件生成任务的适应性，并极大地扩展了其应用范围。大量的实验表明，我们的框架在包括文本描述、分割掩码（边界框）、拖拽操作及其组合等各类条件下的性能均优于现有方法。代码可在https://github.com/ZixuanWang0525/DADG获取。