摘要
arXiv:2504.02764v1 类型:交叉
摘要: 在本文中,我们提出了场景溅射( Scene Splatter),这是一种基于动量的视频扩散范式,用于从单张图像生成通用场景。现有方法采用视频生成模型来合成新颖视图,但受限于视频长度有限和场景不一致性,导致在进一步重构过程中出现伪影和失真。为了解决这一问题,我们从原始特征中构建了噪声样本作为动量,以增强视频细节并保持场景一致性。然而,对于感知域覆盖已知和未知区域的潜在特征,这种潜在级别的动量限制了视频扩散模型在未知区域的生成能力。因此,我们进一步引入上述一致性的视频作为像素级别的动量,应用于直接生成的视频中,以更好地恢复未见过的区域。我们级联的动量使视频扩散模型能够生成高保真度和一致的新视图。我们进一步通过增强帧来微调全局高斯表示,并在下一步渲染新帧用于动量更新。这样一来,我们可以通过迭代恢复3D场景,避免了视频长度的限制。大量实验表明,我们的方法在高保真度和一致的场景生成方面具有泛化能力和优越性能。