LLM2D
PaintScene4D:从文本提示生成一致的4D场景
PaintScene4D: Consistent 4D Scene Generation from Text Prompts
作者: Vinayak Gupta, Yunze Man, Yu-Xiong Wang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2412.04471v2

摘要

arXiv:2412.04471v2 宣告类型: replace-cross 摘要:近年来,在扩散模型方面取得的进展已经彻底改变了2D和3D内容的创作方式,但在生成逼真的动态4D场景方面仍然存在重大挑战。现有动态4D生成方法通常依赖于从预训练的3D生成模型中提取知识,这些模型往往是在合成对象数据集上进行微调的。因此,生成的场景往往是物体中心的,缺乏逼真度。虽然文本转视频模型可以生成更具真实感的场景并包含运动,但在空间理解方面它们往往表现不佳,并且在渲染过程中提供了有限的摄像机视角控制。为了克服这些局限性,我们提出了PaintScene4D,这是一种新颖的文本转4D场景生成框架,它摒弃了传统的多视角生成模型,转而采用的一种简化架构,利用在多样化真实世界数据集上训练的视频生成模型。我们的方法首先使用视频生成模型生成一个参考视频,然后选择一个策略性的相机数组来进行渲染。我们应用逐级扭曲和填充技术,以确保从多个视角来看在空间和时间上保持一致。最后,我们使用动态渲染器优化多视角图像,从而根据用户偏好实现灵活的摄像机控制。采用无需训练的架构,我们的PaintScene4D能够高效地生成可以从任意轨迹观看的真实4D场景。代码将向公众开放。我们的项目页面是 https://paintscene4d.github.io/