LLM2D

摘要

arXiv:2503.24108v1 交叉公告类型：cross 摘要：在结肠镜检查中早期检测、精确分割、分类和跟踪息肉对于预防结肠直肠癌至关重要。许多现有的基于深度学习的结肠镜视频分析方法要么需要特定任务的微调，要么缺乏跟踪能力，要么依赖于特定领域的预训练。在本文中，我们介绍了PolySegTrack，这是一个新颖的基础模型，可以同时解决结肠镜视频中的息肉检测、分割、分类和无监督跟踪问题。我们的方法利用了一种新型的条件掩码损失，这使我们在具有像素级分割掩码或边界框注释的不同数据集上实现灵活的训练，从而可以绕过特定任务的微调。我们的无监督跟踪模块可靠地在帧间关联息肉实例，而无需依赖任何启发法。我们利用了一个基于鲁棒视觉基础模型的骨干网络，该网络以无监督的方式在自然图像上进行了预训练，从而消除了特定领域的预训练需求。在多个息肉基准测试上的大量实验表明，我们的方法在检测、分割、分类和跟踪方面显著优于现有最先进的方法。