LLM2D

摘要

arXiv:2504.01016v1 交叉类型: cross 摘要: 尽管在视频深度估计方面取得了显著进步，现有的方法在通过仿射不变预测实现几何保真度方面仍存在内在限制，这限制了它们在重建及其他基于度量的下游任务中的应用。我们提出了一种名为GeometryCrafter的新框架，该框架可以从开放世界的视频中恢复具有时间连贯性的高保真点图序列，从而实现精确的3D/4D重建、相机参数估计及其他基于深度的应用。我们方法的核心是一个点图变分自编码器（VAE），它学习一个与视频潜在分布无关的潜在空间，以有效进行点图编码和解码。利用VAE，我们训练了一个视频扩散模型，以在给定输入视频的情况下建模点图序列的分布。在多种数据集上的广泛评估表明，GeometryCrafter实现了最先进的3D准确性、时间一致性及泛化能力。