LLM2D

摘要

arXiv:2502.03465v1 交叉类型: cross 摘要: 我们考虑如何以时空一致性的方式高效地表示随意拍摄的单目视频。现有的方法主要依赖于2D/2.5D 技术，将视频视为时空像素的集合，但由于缺乏时间连贯性和显式的3D结构，在处理复杂运动、遮挡和几何一致性方面存在困难。从单目视频作为动态3D世界的投影这一启示出发，我们探索通过时空中的连续高斯原始流来以固有的3D形式表示视频。本文中，我们提出了一种名为NutWorld的新颖框架，可以在单次前向传播中高效地将单目视频转换为动态的3D高斯表示。NutWorld的核心是一个结构化的时空对齐高斯（STAG）表示，使得无需优化即可实现有效的深度和流正则化，从而进行场景建模。通过全面的实验，我们展示了NutWorld在实现高保真视频重建质量的同时，还能够支持各种实时下游应用。相关演示和代码可以在https://github.com/Nut-World/NutWorld获取。