LLM2D

摘要

arXiv:2503.21761v1 Announce Type: cross 摘要：本文提出了一种统一的方法，用于从休闲视频中理解动态场景。大型预训练视觉基础模型，如视觉-语言、视频深度预测、运动跟踪和分割模型，提供了有前景的能力。然而，训练一个单一模型来实现全面的4D理解仍然是具有挑战性的。我们引入了Uni4D，这是一种多阶段优化框架，利用多个预训练模型来推动动态3D建模，包括静态/动态重建、相机姿态估计和密集3D运动跟踪。我们的结果显示，Uni4D在动态4D建模方面具有卓越的视觉质量，达到了最先进的性能。值得注意的是，Uni4D无需重新训练或微调，突显了重新利用视觉基础模型进行4D理解的有效性。