摘要
arXiv:2409.12467v2 消息类型: replace-cross
摘要:手术阶段识别对于帮助外科医生理解手术视频至关重要。现有的研究更多地关注在线手术阶段识别,利用前一帧来预测当前帧。尽管取得了很大的进步,但他们将任务表述为一系列帧分类,这导致了整个手术过程缺乏全局上下文和不一致的预测。此外,除了在线分析之外,准确的离线手术阶段识别在回顾性分析方面也具有重大的临床需求,现有的在线算法并未全面分析整个视频,从而限制了离线分析的准确性。为克服这些挑战并增强在线和离线推断能力,我们提出了一种通用的手术阶段定位网络,命名为 SurgPLAN++,基于时间检测的原则。为了确保对手术过程的全局理解,我们为 SurgPLAN++ 设计了一种阶段定位策略,通过阶段提案来预测整个视频中的阶段片段。对于在线分析,在生成高质量的阶段提案时,SurgPLAN++ 采用一种数据增强策略,通过镜像、中心复制和下采样将流媒体视频扩展为伪完整视频。对于离线分析,SurgPLAN++ 利用其全局阶段预测框架,在每次在线推断步骤中连续细化先前的预测,从而显著提高阶段识别的准确性。我们进行了广泛的实验来验证其有效性,我们的 SurgPLAN++ 在在线和离线模式下均表现出了出色的效果,超过了最先进的方法。源代码可在 https://github.com/franciszchen/SurgPLAN-Plus 获取。