摘要
手术阶段识别因其为现代手术室的诸多需求提供解决方案的潜力而受到广泛关注。然而,大多数现有方法都集中在微创手术 (MIS) 上,而开放手术的手术阶段识别研究不足。这种差异主要归因于公开可用的用于手术阶段识别的开放手术视频数据集的匮乏。为了解决这个问题,我们引入了一个新的用于阶段识别的人称视角开放手术视频数据集,命名为 EgoSurgery-Phase。该数据集包含 15 小时的真实开放手术视频,涵盖 9 个不同的手术阶段,所有视频均使用安装在外科医生头部的人称视角摄像头拍摄。除了视频之外,EgoSurgery-Phase 还提供眼动追踪数据。据我们所知,这是第一个公开可用的用于手术阶段识别的真实开放手术视频数据集。此外,受掩码自动编码器 (MAE) 在视频理解任务(例如动作识别)中显著成功的启发,我们提出了一种凝视引导掩码自动编码器 (GGMAE)。考虑到外科医生凝视关注的区域通常对手术阶段识别至关重要(例如,手术视野),在我们的 GGMAE 中,凝视信息充当经验语义丰富性先验,引导掩码过程,从而更好地关注语义丰富的空间区域。GGMAE 在 EgoSurgery-Phase 数据集上显著提高了之前的最先进识别方法(Jaccard 指标提高 6.4%)和基于掩码自动编码器的方法(Jaccard 指标提高 3.1%)。该数据集已发布在 https://github.com/Fujiry0/EgoSurgery。