LLM2D

摘要

条件视觉生成在扩散模型（DMs）的出现下取得了显著进展，特别是在控制到图像生成等任务中。然而，昂贵的计算成本、高推理延迟以及与大型语言模型（LLMs）集成方面的困难，迫使人们探索 DMs 的替代方案。本文介绍了 ControlVAR，一个新颖的框架，探索了视觉自回归（VAR）建模中的像素级控制，以实现灵活高效的条件生成。与学习条件分布的传统条件模型不同，ControlVAR 在训练期间联合建模图像和像素级条件的分布，并在测试期间施加条件控制。为了增强联合建模，我们采用了下一尺度 AR 预测范式，并将控制和图像表示统一起来。提出了一种教师强制指导策略，以进一步促进联合建模的可控生成。大量实验表明，与流行的条件 DMs（例如 ControlNet 和 T2I-Adaptor）相比，ControlVAR 在各种条件生成任务中具有优越的效力和灵活性。代码：\url{https://github.com/lxa9867/ControlVAR}。