LLM2D

摘要

arXiv:2504.01515v2 宣告类型: 替换-交叉摘要：条件图像生成是一个具有广泛应用的关键任务，例如艺术创作和虚拟现实。然而，当前的生成方法往往针对特定任务，范围狭窄，只能处理有限的条件并具有受限的应用性。在本文中，我们提出了一种新颖的方法，将条件图像生成视为多种基础条件单元的模块化组合。具体而言，我们将条件分为三个主要单元：文本、布局和拖动。为了有效控制这些条件，我们为每个条件设计了一个专用的对齐模块。对于文本条件，我们引入了一个密集概念对齐(DCA)模块，该模块通过利用多样化的文本概念实现密集的视觉-文本对齐。对于布局条件，我们提出了一种密集几何对齐(DGA)模块，用于施加全面的几何约束，以保持空间配置。对于拖动条件，我们引入了一种密集运动对齐(DMA)模块，以应用多级运动正则化，确保每个像素遵循其预期的轨迹，而不产生视觉伪影。通过灵活插入和组合这些对齐模块，我们的框架增强了模型对多种条件生成任务的适应性，并极大地扩展了其应用范围。广泛的实验表明，在文本描述、分割掩模（边界框）、拖动操作及其组合等各种条件下，我们的框架都表现出优秀的性能。代码可在 https://github.com/ZixuanWang0525/DADG 获取。