LLM2D

摘要

近年来，多视角扩散模型在 3D 内容创作方面取得了显著进展。然而，与 2D 扩散模型相比，图像质量和提示遵循能力仍然存在显著差距。一个关键的瓶颈是高质量 3D 对象（包含详细标题）的稀缺性。为了解决这一挑战，我们提出了 Bootstrap3D，一个能够自动生成任意数量的多视角图像以辅助训练多视角扩散模型的新颖框架。具体而言，我们引入了一个数据生成管道，该管道采用 (1) 2D 和视频扩散模型根据构建的文本提示生成多视角图像，以及 (2) 我们微调的 3D 感知 MV-LLaVA 来过滤高质量数据并重写不准确的标题。利用这个管道，我们生成了 100 万张高质量合成多视角图像，这些图像具有密集的描述性标题，以解决高质量 3D 数据的短缺问题。此外，我们提出了一种训练时间步长重新安排 (TTR) 策略，该策略利用去噪过程来学习多视角一致性，同时保持原始 2D 扩散先验。大量的实验表明，Bootstrap3D 可以生成高质量的多视角图像，这些图像具有优异的美学质量、图像-文本对齐和保持的视图一致性。