LLM2D

摘要

目标：深度估计对于内窥镜导航和操作至关重要，但在实际临床场景中，如结肠，获取真实深度图是具有挑战性的。本研究旨在开发一个稳健的框架，能够很好地泛化到真实的结肠镜图像，克服非朗伯表面反射和多样数据分布等挑战。方法：我们提出了一种结合卷积神经网络（CNN）捕捉局部特征和Transformer捕捉全局信息的框架。设计了一种基于不确定性的融合块，通过识别CNN和Transformer分支的互补贡献来增强泛化能力。该网络可以在模拟数据集上进行训练，并直接泛化到未见过的临床数据，无需任何微调。结果：我们的方法在多个数据集上得到了验证，并展示了在各种数据集和解剖结构上的出色泛化能力。此外，在实际临床场景中的定性分析证实了所提出方法的鲁棒性。结论：通过CNN-Transformer架构结合局部和全局特征，以及基于不确定性的融合块，提高了深度估计性能和在模拟和真实内窥镜环境中的泛化能力。意义：本研究提供了一种新颖的方法来估计内窥镜图像的深度图，尽管临床条件复杂，但为内窥镜自动导航和其他临床任务（如息肉检测和分割）奠定了基础。