LLM2D

摘要

arXiv:2411.17945v2 公告类型: replace-cross 摘要: 由于现有数据集的尺寸有限、多样性和注解深度有限，从文本提示生成高保真3D内容仍然是计算机视觉领域的显著挑战。为了解决这个问题，我们引入了MARVEL-40M+，这是一个包含4000万个文本注解的大规模数据集，这些注解来自七个主要3D数据集中的890万个3D资产。我们的贡献是开发了一种新颖的多阶段注解流水线，该流水线整合开源的多视图VLMs和LLMs，以自动生成多级描述，范围从详细的（150-200词）到简洁的语义标签（10-20词）。这种结构支持精细3D重建和快速原型制作。此外，我们将源数据集中的人类元数据纳入注解流水线，以增加领域特定信息并减少VLM的幻觉。另外，我们开发了MARVEL-FX3D，这是一个两阶段的文本到3D流水线。我们使用我们的注解对Stable Diffusion进行微调，并使用预训练的图像到3D网络在15秒内生成3D纹理网格。广泛的评估显示，MARVEL-40M+在注解质量和语言多样性方面明显优于现有数据集，GPT-4和人工评估者的胜率分别为72.41%和73.40%。项目页面可在https://sankalpsinha-cmos.github.io/MARVEL/ 获取。