摘要
arXiv:2307.15220v4 Announce Type: replace-cross
摘要:最近外科计算机视觉应用的进步是由仅基于视觉的模型推动的,这些模型在设计中并未明确整合丰富的语言语义。这些方法依赖于手动标注的外科视频来预测一组固定的物体类别,这限制了它们对未见过的外科手术程序和下游任务的一般适用性。本文提出了一种观点,即可以通过开放的外科在线学习平台提供的外科手术视频讲座来提供有效的多模态视觉和语言监督信号,而无需依赖手动标注。我们利用多个互补的自动语音识别系统生成文字转录以应对外科手术视频讲座中存在的特定手术语言挑战。随后,我们提出了一种新颖的方法——SurgVLP(外科多模态预训练),用于多模态表示学习。在多样化的外科手术程序和任务中进行的大量实验表明,SurgVLP 学习到的多模态表示在手术视频分析中具有较强的泛化能力和适应性。此外,我们的零样本评估突显了SurgVLP 作为一种通用基础模型在手术工作流程分析中的潜力,减少了对大量手动标注的依赖,并促进了如少样本学习等适应方法的构建,以构建一种可扩展且数据高效的解决方案,用于各种下游外科应用。SurgVLP 的 [训练代码](https://github.com/CAMMA-public/SurgVLP) 和 [权重](https://github.com/CAMMA-public/PeskaVLP) 是公开的。