摘要
从文本提示生成高保真3D内容仍然是计算机视觉领域的一大挑战,因为现有数据集的规模、多样性和标注深度有限。为了解决这个问题,我们引入了MARVEL-40M+,这是一个大型数据集,包含来自七个主要3D数据集的超过890万个3D资产的4000万个文本标注。我们的贡献是一个新颖的多阶段标注流程,它集成了开源预训练的多视角视觉语言模型(VLMs)和大型语言模型(LLMs),以自动生成多层次的描述,从详细的(150-200字)到简洁的语义标签(10-20字)。这种结构支持细粒度的3D重建和快速原型设计。此外,我们将来自源数据集的人工元数据整合到我们的标注流程中,以便在我们的标注中添加特定领域的的信息并减少视觉语言模型的幻觉。此外,我们开发了MARVEL-FX3D,一个两阶段的文本到3D流程。我们使用我们的标注对稳定扩散模型进行微调,并使用预训练的图像到3D网络在15秒内生成3D纹理网格。大量的评估表明,MARVEL-40M+在标注质量和语言多样性方面显著优于现有数据集,GPT-4的胜率为72.41%,人工评估员的胜率为73.40%。