摘要
条件视觉生成在扩散模型(DMs)的出现下取得了显著进展,特别是在控制到图像生成等任务中。然而,昂贵的计算成本、高推理延迟以及与大型语言模型(LLMs)集成方面的困难,迫使人们探索 DMs 的替代方案。本文介绍了 ControlVAR,一个新颖的框架,探索了视觉自回归(VAR)建模中的像素级控制,以实现灵活高效的条件生成。与学习条件分布的传统条件模型不同,ControlVAR 在训练期间联合建模图像和像素级条件的分布,并在测试期间施加条件控制。为了增强联合建模,我们采用了下一尺度 AR 预测范式,并将控制和图像表示统一起来。提出了一种教师强制指导策略,以进一步促进联合建模的可控生成。大量实验表明,与流行的条件 DMs(例如 ControlNet 和 T2I-Adaptor)相比,ControlVAR 在各种条件生成任务中具有优越的效力和灵活性。代码:\url{https://github.com/lxa9867/ControlVAR}。