摘要
arXiv:2411.17945v2 公告类型: replace-cross
摘要: 由于现有数据集的尺寸有限、多样性和注解深度有限,从文本提示生成高保真3D内容仍然是计算机视觉领域的显著挑战。为了解决这个问题,我们引入了MARVEL-40M+,这是一个包含4000万个文本注解的大规模数据集,这些注解来自七个主要3D数据集中的890万个3D资产。我们的贡献是开发了一种新颖的多阶段注解流水线,该流水线整合开源的多视图VLMs和LLMs,以自动生成多级描述,范围从详细的(150-200词)到简洁的语义标签(10-20词)。这种结构支持精细3D重建和快速原型制作。此外,我们将源数据集中的人类元数据纳入注解流水线,以增加领域特定信息并减少VLM的幻觉。另外,我们开发了MARVEL-FX3D,这是一个两阶段的文本到3D流水线。我们使用我们的注解对Stable Diffusion进行微调,并使用预训练的图像到3D网络在15秒内生成3D纹理网格。广泛的评估显示,MARVEL-40M+在注解质量和语言多样性方面明显优于现有数据集,GPT-4和人工评估者的胜率分别为72.41%和73.40%。项目页面可在https://sankalpsinha-cmos.github.io/MARVEL/ 获取。