摘要
手术器械分割对于微创手术和相关应用至关重要。大多数先前的方法将这项任务表述为基于单帧的实例分割,而忽略了手术视频的自然时间和立体属性。因此,这些方法对由于时间运动和视角变化导致的外观变化不太鲁棒。在这项工作中,我们提出了一种新颖的 LACOSTE 模型,它利用立体和时间图像中的位置无关上下文来改进手术器械分割。利用基于查询的分割模型作为核心,我们设计了三个性能增强模块。首先,我们设计了一个视差引导的特征传播模块,以显式地增强深度感知特征。为了即使在只有单目视频的情况下也能很好地泛化,我们应用了一种伪立体方案来生成互补的右图像。其次,我们提出了一种立体时间集分类器,它以通用方式聚合立体时间上下文,以做出综合预测并缓解瞬态故障。最后,我们提出了一种位置无关分类器,以将位置偏差与掩码预测分离并增强特征语义。我们在三个公开的手术视频数据集上广泛验证了我们的方法,包括来自 EndoVis 挑战赛的两个基准数据集和一个真实的根治性前列腺切除术数据集 GraSP。实验结果证明了我们方法的有希望的性能,它始终与以前的最先进方法取得相当或更好的结果。