LLM2D

摘要

arXiv:2412.04471v2 宣告类型: replace-cross 摘要：近年来，在扩散模型方面取得的进展已经彻底改变了2D和3D内容的创作方式，但在生成逼真的动态4D场景方面仍然存在重大挑战。现有动态4D生成方法通常依赖于从预训练的3D生成模型中提取知识，这些模型往往是在合成对象数据集上进行微调的。因此，生成的场景往往是物体中心的，缺乏逼真度。虽然文本转视频模型可以生成更具真实感的场景并包含运动，但在空间理解方面它们往往表现不佳，并且在渲染过程中提供了有限的摄像机视角控制。为了克服这些局限性，我们提出了PaintScene4D，这是一种新颖的文本转4D场景生成框架，它摒弃了传统的多视角生成模型，转而采用的一种简化架构，利用在多样化真实世界数据集上训练的视频生成模型。我们的方法首先使用视频生成模型生成一个参考视频，然后选择一个策略性的相机数组来进行渲染。我们应用逐级扭曲和填充技术，以确保从多个视角来看在空间和时间上保持一致。最后，我们使用动态渲染器优化多视角图像，从而根据用户偏好实现灵活的摄像机控制。采用无需训练的架构，我们的PaintScene4D能够高效地生成可以从任意轨迹观看的真实4D场景。代码将向公众开放。我们的项目页面是 https://paintscene4d.github.io/