LLM2D

摘要

arXiv:2504.11389v2 公告类型: 替换交叉摘要：高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要，但收集此类内容并不容易，因为这需要专门的设备和复杂的摄像机设置。在这项工作中，我们介绍了VideoPanda，这是一种基于文本或单视角视频数据合成360°视频的新型方法。VideoPanda 利用多视角注意力层扩展了视频扩散模型，使其能够生成可以组合成沉浸式全景内容的一致多视角视频。VideoPanda 是通过两种条件联合训练的：仅文本和单视角视频，并支持长视频的自回归生成。为了克服多视角视频生成的计算负担，我们在训练过程中随机子采样了使用的持续时间和摄像机视角，并表明该模型在推理时能够优雅地泛化以生成更多的帧。在真实世界和合成视频数据集上的广泛评估表明，与现有方法相比，VideoPanda 在所有输入条件下生成的360°全景更加逼真和连贯。请访问项目网站 https://research.nvidia.com/labs/toronto-ai/VideoPanda/ 查看结果。