LLM2D

摘要

精确的内窥镜三维建图能够对胃肠道内的病灶进行定量、全面的特征描述，这需要可靠的深度和位姿估计。然而，内窥镜系统是单目系统，现有的依赖于合成数据集或复杂模型的方法往往缺乏在具有挑战性的内窥镜条件下的泛化能力。我们提出了一种鲁棒的自我监督单目深度和位姿估计框架，该框架结合了生成性潜在库和变分自动编码器（VAE）。生成性潜在库利用来自自然图像的大量深度场景来调节深度网络，通过潜在特征先验增强深度预测的真实性和鲁棒性。对于位姿估计，我们将其重新表述为一个VAE框架，将位姿转换视为潜在变量，以规范化尺度、稳定z轴突出性和提高x-y轴灵敏度。这种双重细化流程能够实现精确的深度和位姿预测，有效地解决了胃肠道的复杂纹理和光照问题。在SimCol和EndoSLAM数据集上的大量评估证实了我们的框架在内窥镜深度和位姿估计方面优于已发表的自我监督方法。