摘要
手术阶段识别因其为现代手术室的诸多需求提供解决方案的潜力而备受关注。然而,大多数现有方法都集中在微创手术(MIS)上,而开放手术的手术阶段识别研究不足。这种差异主要归因于公开的用于手术阶段识别的开放手术视频数据集的匮乏。为了解决这个问题,我们引入了一个新的用于阶段识别的自我中心开放手术视频数据集,名为EgoSurgery-Phase。该数据集包含 15 小时的真实开放手术视频,涵盖 9 个不同的手术阶段,所有视频均使用连接在外科医生头上的自我中心摄像头拍摄。除了视频外,EgoSurgery-Phase 还提供注视信息。据我们所知,这是第一个公开的用于手术阶段识别的真实开放手术视频数据集。此外,受掩码自动编码器 (MAE) 在视频理解任务(例如动作识别)中取得显著成功的启发,我们提出了一种注视引导的掩码自动编码器 (GGMAE)。考虑到外科医生注视区域通常对手术阶段识别至关重要(例如,手术视野),在我们的 GGMAE 中,注视信息充当经验语义丰富性先验,引导掩码过程,从而更好地关注语义丰富的空间区域。GGMAE 在 EgoSurgery-Phase 上显著提高了之前的最先进识别方法(Jaccard 指标提高 6.4%)和基于掩码自动编码器的方法(Jaccard 指标提高 3.1%)。