LLM2D

摘要

基于图的整体场景表示有助于理解手术工作流程，并已在近期展现出显著的成功。然而，由于缺乏密集标注的手术场景数据，这项任务常常受到限制。在这项工作中，我们介绍了一个端到端的框架，用于在后续任务中生成和优化手术场景图。我们的方法利用了基于图的谱聚类的灵活性以及基础模型的泛化能力，以生成具有可学习属性的无监督场景图。我们利用连续帧之间的局部匹配，用稀疏的时间连接来增强初始空间图，从而预测跨时间邻域的时间一致性聚类。通过将动态场景图的时空关系和节点特征与后续的阶段分割任务联合优化，我们利用仅弱手术阶段标签来解决手术视频中语义场景理解和场景图生成这一成本高昂且标注繁重的任务。此外，通过在管道中加入有效的中间场景表示解耦步骤，我们的解决方案在 CATARACTS 数据集上的手术工作流程识别方面，比最先进的方法提高了 8% 的准确率和 10% 的 F1 分数。