LLM2D

摘要

arXiv:2504.03198v1 类型: cross 摘要: 从单目手术视频重建3D场景可以增强外科医生的感知能力，因此在各种计算机辅助手术任务中发挥着重要作用。然而，由于内窥镜视频固有的问题，例如动态变形和无纹理表面，实现尺度一致的重建仍然是一个开放的挑战。尽管最近取得了进展，当前的方法要么依赖于校准或仪器先验来估计尺度，要么采用像SfM那样的多阶段流水线，从而导致错误累积，并需要离线优化。在本文中，我们提出了Endo3R，这是一种统一的3D基础模型，可以在线进行单目手术视频的尺度一致重建，无需任何先验或额外优化。我们的模型通过预测全局对齐的点图、尺度一致的视频深度以及摄像机参数，统一了任务，且无需任何离线优化。我们方法的核心贡献是通过一个不确定性感知的双内存机制，将近年来的成对重建模型扩展到长期增量动态重建。该机制维护了短期动态和长期空间一致性的历史标记。值得注意的是，为了解决手术场景的高度动态性，我们通过Sampson距离测量标记的不确定性，并过滤掉具有高不确定性的标记。鉴于内窥镜数据集中的地面真实深度和摄像机姿态稀缺，我们还设计了一种自我监督机制，并引入了一种新颖的动力感知流损失机制。在SCARED和Hamlyn数据集上丰富的实验表明，我们的模型在零样本手术视频深度预测和摄像机姿态估计方面具有出色的表现，且具有在线效率。项目页面: https://wrld.github.io/Endo3R/。