LLM2D
JointDiT: 用扩散变换器增强RGB-深度联合建模
JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers
作者: Kwon Byung-Ki, Qi Dai, Lee Hyoseok, Chong Luo, Tae-Hyun Oh
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00482v1

摘要

arXiv:2505.00482v1 Announce Type: cross 摘要:我们提出了JointDiT,这是一种能够建模RGB和深度图像联合分布的扩散变换器。利用当前最先进的扩散变换器的架构优势和出色的图像先验知识,JointDiT 不仅能够生成高保真度的图像,还能生成几何上合理且准确的深度图。我们提出两种简单但有效的技术实现了这种固体的联合分布建模,即自适应调度权重,这些权重取决于每种模态的噪声级别,以及不平衡的时间步长采样策略。利用这些技术,我们可以在每个模态的所有噪声级别上训练我们的模型,使JointDiT 能够自然处理各种组合生成任务,包括联合生成、深度估计和深度条件图像生成,只需通过控制每个分支的时间步长即可。JointDiT 展现了出色的联合生成性能。此外,它在深度估计和深度条件图像生成中也取得了媲美的结果,表明联合分布建模可以作为条件生成的可替代方案。项目页面可在 https://byungki-k.github.io/JointDiT/ 查看。