LLM2D
一键扩散,生成万物
One Diffusion to Generate Them All
作者: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16318v1

摘要

我们引入了OneDiffusion,这是一个通用的、大规模的扩散模型,可以无缝支持跨各种任务的双向图像合成和理解。它能够根据文本、深度、姿态、布局和语义地图等输入进行条件生成,同时也能处理图像去模糊、超分辨率和反向过程(如深度估计和分割)等任务。此外,OneDiffusion还允许多视图生成、相机姿态估计以及使用顺序图像输入进行即时个性化。我们的模型采用了一种简单而有效的方法,在训练过程中将所有任务视为具有不同噪声尺度的帧序列,允许任何帧在推理时充当条件图像。我们的统一训练框架无需专门的架构,支持可扩展的多任务训练,并能平滑地适应任何分辨率,从而增强泛化能力和可扩展性。实验结果表明,尽管训练数据集相对较小,但在文本到图像、多视图生成、ID 保持、深度估计和相机姿态估计等生成和预测任务中,我们的模型都取得了具有竞争力的性能。我们的代码和检查点可在https://github.com/lehduong/OneDiffusion免费获取。