LLM2D
ControlVAR:探索可控视觉自回归建模
ControlVAR: Exploring Controllable Visual Autoregressive Modeling
作者: Xiang Li, Kai Qiu, Hao Chen, Jason Kuen, Zhe Lin, Rita Singh, Bhiksha Raj
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2406.09750v2

摘要

条件视觉生成在扩散模型(DMs)的出现下取得了显著进展,特别是在控制到图像生成等任务中。然而,昂贵的计算成本、高推理延迟以及与大型语言模型(LLMs)集成方面的困难,迫使人们探索 DMs 的替代方案。本文介绍了 ControlVAR,一个新颖的框架,探索了视觉自回归(VAR)建模中的像素级控制,以实现灵活高效的条件生成。与学习条件分布的传统条件模型不同,ControlVAR 在训练期间联合建模图像和像素级条件的分布,并在测试期间施加条件控制。为了增强联合建模,我们采用了下一尺度 AR 预测范式,并将控制和图像表示统一起来。提出了一种教师强制指导策略,以进一步促进联合建模的可控生成。大量实验表明,与流行的条件 DMs(例如 ControlNet 和 T2I-Adaptor)相比,ControlVAR 在各种条件生成任务中具有优越的效力和灵活性。代码:\url{https://github.com/lxa9867/ControlVAR}。