摘要
arXiv:2503.22537v1 宣布类型: 交叉研究
摘要: 从视频数据中重构动态资产是许多计算机视觉和图形任务的核心。现有的4D重构方法受到特定类别模型或慢速优化方法的限制。受近期大型重构模型(LRM)的启发,我们提出了一种基于变换器的前馈解决方案——大型插值模型(LIM),它通过一种新颖的因果一致性损失,实现时间上隐式3D表示的插值。给定时间 $t_0$ 和 $t_1$ 的隐式3D表示,LIM 可以生成任意连续时间 $t \in [t_0, t_1]$ 的变形形状,并在几秒钟内提供高质量的插值帧。此外,LIM 允许时间上的显式网格追踪,生成一个一致的uv纹理网格序列,可以直接集成到现有的生产流水线中。我们还使用LIM,结合基于扩散的多视图生成器,从单目视频中生成动态4D重构。我们在各种动态数据集上评估了LIM,将其与图像空间插值方法(例如,FiLM)和直接的三平面线性插值进行比较,并展示了明显的优越性。总的来说,LIM 是第一个能够在多种类别中实现高速跟踪4D资产重构的前馈模型。