LLM2D
GeometryCrafter:带有扩散先验的开放世界视频的一致几何估计
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
作者: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.01016v1

摘要

arXiv:2504.01016v1 交叉类型: cross 摘要: 尽管在视频深度估计方面取得了显著进步,现有的方法在通过仿射不变预测实现几何保真度方面仍存在内在限制,这限制了它们在重建及其他基于度量的下游任务中的应用。我们提出了一种名为GeometryCrafter的新框架,该框架可以从开放世界的视频中恢复具有时间连贯性的高保真点图序列,从而实现精确的3D/4D重建、相机参数估计及其他基于深度的应用。我们方法的核心是一个点图变分自编码器(VAE),它学习一个与视频潜在分布无关的潜在空间,以有效进行点图编码和解码。利用VAE,我们训练了一个视频扩散模型,以在给定输入视频的情况下建模点图序列的分布。在多种数据集上的广泛评估表明,GeometryCrafter实现了最先进的3D准确性、时间一致性及泛化能力。