LLM2D

摘要

arXiv:2502.06608v1 交叉类型公告摘要：近期在扩散技术方面的进步已使图像和视频生成达到了前所未有的高质量水平，显著加速了生成式AI的应用与部署。然而，3D形状生成技术目前仍落后于这一趋势，受限于3D数据规模的限制、3D数据处理的复杂性以及3D领域先进技巧探索的不足。目前的3D形状生成方法在输出质量、泛化能力和输入条件匹配方面面临着重大挑战。我们提出了TripoSG，这是一种新的简化形状扩散范式，能够生成与输入图像精确对应的高保真3D网格。具体来说，我们提出了：1）一种大规模正则化流变换器，通过使用大量高质量数据进行训练，实现了最先进的保真度；2）一种结合SDF、法线和eikonal损失的混合监督训练策略，提高了3D VAE的高保真3D重建性能；3）一个数据处理流程，生成了200万个高质量3D样本，突显了在训练3D生成模型时数据质量和数量的关键规则。通过全面的实验，我们验证了我们在新框架中每个组件的有效性。这些部分的无缝整合使得TripoSG在3D形状生成中达到了最先进的性能。生成的3D形状由于具有高分辨率能力，展现出显著增强的细节，并在与输入图像匹配的保真度方面表现出色。此外，TripoSG在从多种图像风格和内容生成3D模型方面显示出了改进的灵活性，展示了其强大的泛化能力。为了促进3D生成领域的进步与创新，我们将公开我们的模型。