LLM2D

摘要

arXiv:2502.06608v3 宣布类型: replace-cross 摘要：近期在扩散技术方面的进展已将图像和视频生成推向了前所未有的高质量水平，显著加速了生成式AI的部署和应用。然而，3D形状生成技术至今仍落后于其他领域，受限于3D数据规模的限制、3D数据处理的复杂性以及在3D领域的先进技术探索不足。当前的3D形状生成方法在输出质量、泛化能力和输入条件的一致性方面面临着重大挑战。我们提出了TripoSG，这是一种新的简化的形状扩散范式，能够生成与输入图像精确对齐的高保真3D网格。具体而言，我们提出了：1）一种大规模校正流转换器用于3D形状生成，通过广泛的高质量数据训练实现最先进的保真度。2）一种混合监督训练策略，结合SDF、法线和准矢量损失，实现高质量的3D VAE重建性能。3）一个数据处理管道生成200万高质量3D样本，突出了训练3D生成模型时数据质量和数量的关键规则。通过全面的实验，我们验证了我们新框架中每个组件的有效性。这些部分的无缝集成使TripoSG在3D形状生成方面达到了最先进的性能。生成的3D形状由于高分辨率能力而更加精细，并且对输入图像表现出出色的保真度。此外，TripoSG展示了更强的泛化能力，在生成从多种图像风格和内容中生成3D模型方面表现出更好的灵活性。为了促进3D生成领域的进展和创新，我们将使我们的模型公开可用。