LLM2D

摘要

我们引入了OneDiffusion，这是一个通用的、大规模的扩散模型，可以无缝支持跨各种任务的双向图像合成和理解。它能够根据文本、深度、姿态、布局和语义地图等输入进行条件生成，同时也能处理图像去模糊、超分辨率和反向过程（如深度估计和分割）等任务。此外，OneDiffusion还允许多视图生成、相机姿态估计以及使用顺序图像输入进行即时个性化。我们的模型采用了一种简单而有效的方法，在训练过程中将所有任务视为具有不同噪声尺度的帧序列，允许任何帧在推理时充当条件图像。我们的统一训练框架无需专门的架构，支持可扩展的多任务训练，并能平滑地适应任何分辨率，从而增强泛化能力和可扩展性。实验结果表明，尽管训练数据集相对较小，但在文本到图像、多视图生成、ID 保持、深度估计和相机姿态估计等生成和预测任务中，我们的模型都取得了具有竞争力的性能。我们的代码和检查点可在https://github.com/lehduong/OneDiffusion免费获取。