摘要
arXiv:2503.24108v2 Announce Type: replace-cross
摘要:结肠镜检查期间早期检测、精确分割、分类和追踪息肉对于预防结肠直肠癌至关重要。许多现有的基于深度学习的结肠镜检查视频分析方法要么需要特定任务的微调,要么缺乏追踪能力,要么依赖于特定领域的预训练。在本文中,我们介绍了PolypSegTrack,这是一种新颖的基础模型,能够联合解决结肠镜检查视频中的息肉检测、分割、分类和无监督追踪问题。我们的方法利用了一种新颖的条件遮罩损失,使我们能够在具有像素级分割遮罩或边界框注释的不同数据集之间灵活训练,从而避免了特定任务的微调。我们的无监督追踪模块可靠地在帧之间关联息肉实例,而无需依赖任何启发式方法。我们利用了一个在自然图像上无监督预训练的坚固的视觉基础模型骨干网络,从而消除了对特定领域预训练的需求。在多个息肉基准数据集上的广泛实验表明,我们的方法在检测、分割、分类和追踪方面显著优于现有最先进的方法。