LLM2D

摘要

我们提出了一种名为“缓冲区随时可用”的框架，用于从视频中估计深度图和法线图（我们称之为几何缓冲区），该框架无需配对的视频-深度和视频-法线训练数据。我们没有依赖大规模标注的视频数据集，而是通过利用单图像先验信息和时间一致性约束，展示了高质量的视频缓冲区估计。我们的零样本训练策略结合了基于光流平滑性的最先进图像估计模型，通过轻量级的时间注意架构实现混合损失函数。应用于Depth Anything V2和Marigold-E2E-FT等领先的图像模型，我们的方法显著提高了时间一致性，同时保持了精度。实验表明，我们的方法不仅优于基于图像的方法，而且在没有使用任何配对视频数据的情况下，也取得了与在大型配对视频数据集上训练的最先进视频模型相当的结果。