LLM2D

摘要

arXiv:2504.11389v1 Announce Type: cross 摘要：高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要，但采集这类内容并不容易，因为这需要专门的设备和复杂的相机设置。在这项工作中，我们介绍了一种新颖的方法，名为VideoPanda，它可以基于文本或单视角视频数据合成功能完整的360°视频。VideoPanda利用多视角注意力层增强了视频扩散模型，使其能够生成一致的多视角视频，从而可以组合成沉浸式全景内容。VideoPanda联合训练使用两种条件：仅文本和单视角视频，并支持长视频的自回归生成。为了克服多视角视频生成的计算负担，在训练过程中我们随机采样使用的持续时间和相机视角，并展示了模型在推断过程中能够优雅地泛化生成更多帧的能力。在真实世界和合成视频数据集上的广泛评估表明，与现有方法相比，VideoPanda在所有输入条件下生成了更加逼真和连贯的360°全景图。请访问项目网站https://research-staging.nvidia.com/labs/toronto-ai/VideoPanda/ 查看结果。