LLM2D

摘要

arXiv:2503.21219v1 Announce Type: cross 摘要：最近，3D重建和生成展示了令人印象深刻的新型视图合成结果，实现了高保真度和高效性。然而，这两个领域之间存在明显的条件差距，例如，可扩展的3D场景重建通常需要密集捕获的视图，而3D生成通常依赖于一个或没有输入视图，这极大地限制了它们的应用。我们发现，这种现象的原因在于3D约束与生成先验之间的不匹配。为了解决这个问题，我们提出了一种基于重建的视频扩散模型，该模型学习在易产生伪影的RGB-D渲染上条件化视频帧。此外，我们提出了一种循环融合管道，该管道通过迭代将生成模型的修复帧添加到训练集中，从而逐步扩展，并解决先前重建和生成管道中存在的视角饱和限制。我们的评估，包括从稀疏视图和遮罩输入生成视图的合成，验证了我们方法的有效性。