摘要
本文介绍了OminiControl,一个高度通用且参数高效的框架,它将图像条件集成到预训练的扩散Transformer (DiT) 模型中。OminiControl的核心利用参数复用机制,使DiT能够利用自身强大的骨干网络对图像条件进行编码,并利用其灵活的多模态注意力处理器进行处理。与依赖于具有复杂架构的额外编码器模块的现有方法不同,OminiControl (1)有效且高效地结合了注入的图像条件,额外参数仅约占0.1%;(2)以统一的方式处理各种图像条件任务,包括主题驱动生成和空间对齐条件(如边缘、深度等)。值得注意的是,这些能力是通过在DiT自身生成的图像上进行训练实现的,这对于主题驱动生成尤其有利。大量的评估表明,OminiControl在主题驱动和空间对齐条件生成方面均优于现有的基于UNet和DiT改编的模型。此外,我们还发布了我们的训练数据集Subjects200K,这是一个包含超过20万张身份一致图像的多样化集合,以及一个高效的数据合成管道,以推动主题一致生成的研究。