摘要
手术阶段识别对于帮助外科医生理解手术视频至关重要。现有研究更多关注在线手术阶段识别,通过利用先前的帧来预测当前帧。尽管取得了显著进展,但它们将任务形式化为一系列帧级分类,导致缺乏整个手术过程的全局上下文和预测的不连贯性。此外,除了在线分析外,准确的离线手术阶段识别在回顾性分析中也具有重要的临床需求,而现有的在线算法未能充分分析整个视频,从而限制了离线分析的准确性。为了克服这些挑战并增强在线和离线推理能力,我们提出了一种通用的手术阶段定位网络,名为SurgPLAN++,基于时间检测原理。为了确保对手术过程的全面理解,我们为SurgPLAN++设计了一种阶段定位策略,通过阶段提案在整个视频中预测阶段片段。对于在线分析,为了生成高质量的阶段提案,SurgPLAN++采用了一种数据增强策略,通过镜像、中心复制和下采样将流式视频扩展为伪完整视频。对于离线分析,SurgPLAN++利用其全局阶段预测框架,在每次在线推理步骤中持续优化先前的预测,从而显著提高阶段识别的准确性。我们进行了广泛的实验以验证其有效性,SurgPLAN++在在线和离线模式下均取得了显著的性能,优于最先进的方法。源代码可在https://github.com/lxj22/SurgPLAN-Plus获取。