摘要
arXiv:2502.03465v1 交叉类型: cross
摘要: 我们考虑如何以时空一致性的方式高效地表示随意拍摄的单目视频。现有的方法主要依赖于2D/2.5D 技术,将视频视为时空像素的集合,但由于缺乏时间连贯性和显式的3D结构,在处理复杂运动、遮挡和几何一致性方面存在困难。从单目视频作为动态3D世界的投影这一启示出发,我们探索通过时空中的连续高斯原始流来以固有的3D形式表示视频。本文中,我们提出了一种名为NutWorld的新颖框架,可以在单次前向传播中高效地将单目视频转换为动态的3D高斯表示。NutWorld的核心是一个结构化的时空对齐高斯(STAG)表示,使得无需优化即可实现有效的深度和流正则化,从而进行场景建模。通过全面的实验,我们展示了NutWorld在实现高保真视频重建质量的同时,还能够支持各种实时下游应用。相关演示和代码可以在https://github.com/Nut-World/NutWorld获取。