LLM2D

摘要

arXiv:2411.08033v2 宣布类型: replace-cross 摘要：虽然3D内容生成取得了显著进展，但现有方法仍然面临输入格式、潜在空间设计和输出表示方面的挑战。本文介绍了一种新的3D生成框架，以解决这些挑战，提供可扩展的高质量3D生成，并带有交互式的点云结构化潜在空间。我们的框架采用多视角配准RGB-D（深度）-N（法线）渲染作为输入，采用独特的方式设计潜在空间以保留3D形状信息，并结合级联潜在流模型以改进形状-纹理分离。所提出的方法GaussianAnything支持多模态条件3D生成，允许点云、标题和单幅图像输入。值得注意的是，新提出的潜在空间自然地实现了几何-纹理分离，从而使3D感知编辑成为可能。实验结果表明，我们的方法在多个数据集上有效，并在文本和图像条件下的3D生成方面超过了现有原生3D方法。