LLM2D

摘要

arXiv:2503.21219v2 Announce Type: replace-cross 摘要：最近，3D重建和生成展示了令人印象深刻的新型视图合成结果，实现了高保真度和高效性。然而，这两个领域之间存在明显的条件差距，例如，可扩展的3D场景重建通常需要密集捕获的视图，而3D生成通常依赖于单一的或没有输入视图，这显著限制了它们的应用。我们发现这种现象的原因在于3D约束与生成先验之间的不匹配。为了解决这一问题，我们提出了一种基于重建的视频扩散模型，该模型能够在易产生伪影的RGB-D渲染上对视频帧进行条件化。此外，我们还提出了一种循环融合流水线，该流水线逐步将生成模型产生的修复帧添加到训练集中，从而实现逐步扩展，并解决之前重建和生成流水线中出现的观点饱和限制。我们的评估，包括从稀疏视图和掩蔽输入生成视图，验证了我们方法的有效性。更多详情请参见 https://genfusion.sibowu.com。