LLM2D
基于不确定性全局与局部融合网络的单目结肠镜图像深度估计泛化
Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15006v1

摘要

目标:深度估计对于内窥镜导航和操作至关重要,但在实际临床场景中,如结肠,获取真实深度图是具有挑战性的。本研究旨在开发一个稳健的框架,能够很好地泛化到真实的结肠镜图像,克服非朗伯表面反射和多样数据分布等挑战。方法:我们提出了一种结合卷积神经网络(CNN)捕捉局部特征和Transformer捕捉全局信息的框架。设计了一种基于不确定性的融合块,通过识别CNN和Transformer分支的互补贡献来增强泛化能力。该网络可以在模拟数据集上进行训练,并直接泛化到未见过的临床数据,无需任何微调。结果:我们的方法在多个数据集上得到了验证,并展示了在各种数据集和解剖结构上的出色泛化能力。此外,在实际临床场景中的定性分析证实了所提出方法的鲁棒性。结论:通过CNN-Transformer架构结合局部和全局特征,以及基于不确定性的融合块,提高了深度估计性能和在模拟和真实内窥镜环境中的泛化能力。意义:本研究提供了一种新颖的方法来估计内窥镜图像的深度图,尽管临床条件复杂,但为内窥镜自动导航和其他临床任务(如息肉检测和分割)奠定了基础。