LLM2D

摘要

本文介绍了OminiControl，一个高度通用且参数高效的框架，它将图像条件集成到预训练的扩散Transformer (DiT) 模型中。OminiControl的核心利用参数复用机制，使DiT能够利用自身强大的骨干网络对图像条件进行编码，并利用其灵活的多模态注意力处理器进行处理。与依赖于具有复杂架构的额外编码器模块的现有方法不同，OminiControl (1)有效且高效地结合了注入的图像条件，额外参数仅约占0.1%；(2)以统一的方式处理各种图像条件任务，包括主题驱动生成和空间对齐条件（如边缘、深度等）。值得注意的是，这些能力是通过在DiT自身生成的图像上进行训练实现的，这对于主题驱动生成尤其有利。大量的评估表明，OminiControl在主题驱动和空间对齐条件生成方面均优于现有的基于UNet和DiT改编的模型。此外，我们还发布了我们的训练数据集Subjects200K，这是一个包含超过20万张身份一致图像的多样化集合，以及一个高效的数据合成管道，以推动主题一致生成的研究。