LLM2D

摘要

arXiv:2505.00482v1 Announce Type: cross 摘要：我们提出了JointDiT，这是一种能够建模RGB和深度图像联合分布的扩散变换器。利用当前最先进的扩散变换器的架构优势和出色的图像先验知识，JointDiT 不仅能够生成高保真度的图像，还能生成几何上合理且准确的深度图。我们提出两种简单但有效的技术实现了这种固体的联合分布建模，即自适应调度权重，这些权重取决于每种模态的噪声级别，以及不平衡的时间步长采样策略。利用这些技术，我们可以在每个模态的所有噪声级别上训练我们的模型，使JointDiT 能够自然处理各种组合生成任务，包括联合生成、深度估计和深度条件图像生成，只需通过控制每个分支的时间步长即可。JointDiT 展现了出色的联合生成性能。此外，它在深度估计和深度条件图像生成中也取得了媲美的结果，表明联合分布建模可以作为条件生成的可替代方案。项目页面可在 https://byungki-k.github.io/JointDiT/ 查看。