LLM2D

摘要

arXiv:2411.11934v2 宣告类型: replace-cross 摘要：从单目输入生成立体视频是空间计算和虚拟现实领域的艰巨任务。该任务的主要挑战在于缺乏高质量的配对立体视频进行训练，以及保持帧之间的空时一致性难度大。现有方法主要通过直接将新颖视角合成（NVS）技术应用于视频来解决这些问题，但这些方法存在无法有效表示动态场景以及需要大量训练数据的局限性。本文我们引入了一种通过视频扩散模型的新颖自监督立体视频合成范式，称之为SpatialDreamer，以直面这些挑战。首先，为了应对立体视频数据不足的问题，我们提出了一种基于深度的视频生成模块DVG，该模块采用正向-反向渲染机制生成具有几何和时间先验的配对视频。利用DVG生成的数据，我们提出了RefinerNet并设计了一种自监督合成框架，旨在促进高效的专用训练。更重要的是，我们设计了一种一致性控制模块，该模块包括一个立体偏差强度的度量和一个时空交互学习模块TIL，分别用于几何和时间一致性保障。我们对所提出的方法与各种基准方法进行了评估，结果表明其性能优越。