摘要
arXiv:2504.11389v1 Announce Type: cross
摘要:高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要,但采集这类内容并不容易,因为这需要专门的设备和复杂的相机设置。在这项工作中,我们介绍了一种新颖的方法,名为VideoPanda,它可以基于文本或单视角视频数据合成功能完整的360°视频。VideoPanda利用多视角注意力层增强了视频扩散模型,使其能够生成一致的多视角视频,从而可以组合成沉浸式全景内容。VideoPanda联合训练使用两种条件:仅文本和单视角视频,并支持长视频的自回归生成。为了克服多视角视频生成的计算负担,在训练过程中我们随机采样使用的持续时间和相机视角,并展示了模型在推断过程中能够优雅地泛化生成更多帧的能力。在真实世界和合成视频数据集上的广泛评估表明,与现有方法相比,VideoPanda在所有输入条件下生成了更加逼真和连贯的360°全景图。请访问项目网站https://research-staging.nvidia.com/labs/toronto-ai/VideoPanda/ 查看结果。