LLM2D
视频熊猫:基于多视图注意力的全景扩散视频生成
VideoPanda: Video Panoramic Diffusion with Multi-view Attention
作者: Kevin Xie, Amirmojtaba Sabour, Jiahui Huang, Despoina Paschalidou, Greg Klar, Umar Iqbal, Sanja Fidler, Xiaohui Zeng
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.11389v2

摘要

arXiv:2504.11389v2 公告类型: 替换交叉 摘要:高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要,但收集此类内容并不容易,因为这需要专门的设备和复杂的摄像机设置。在这项工作中,我们介绍了VideoPanda,这是一种基于文本或单视角视频数据合成360°视频的新型方法。VideoPanda 利用多视角注意力层扩展了视频扩散模型,使其能够生成可以组合成沉浸式全景内容的一致多视角视频。VideoPanda 是通过两种条件联合训练的:仅文本和单视角视频,并支持长视频的自回归生成。为了克服多视角视频生成的计算负担,我们在训练过程中随机子采样了使用的持续时间和摄像机视角,并表明该模型在推理时能够优雅地泛化以生成更多的帧。在真实世界和合成视频数据集上的广泛评估表明,与现有方法相比,VideoPanda 在所有输入条件下生成的360°全景更加逼真和连贯。请访问项目网站 https://research.nvidia.com/labs/toronto-ai/VideoPanda/ 查看结果。