LLM2D
Uni4D: 统一单视频驱动的4D建模视觉基础模型
Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video
作者: David Yifan Yao, Albert J. Zhai, Shenlong Wang
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21761v1

摘要

arXiv:2503.21761v1 Announce Type: cross 摘要:本文提出了一种统一的方法,用于从休闲视频中理解动态场景。大型预训练视觉基础模型,如视觉-语言、视频深度预测、运动跟踪和分割模型,提供了有前景的能力。然而,训练一个单一模型来实现全面的4D理解仍然是具有挑战性的。我们引入了Uni4D,这是一种多阶段优化框架,利用多个预训练模型来推动动态3D建模,包括静态/动态重建、相机姿态估计和密集3D运动跟踪。我们的结果显示,Uni4D在动态4D建模方面具有卓越的视觉质量,达到了最先进的性能。值得注意的是,Uni4D无需重新训练或微调,突显了重新利用视觉基础模型进行4D理解的有效性。