LLM2D

摘要

arXiv:2501.18011v2 宣告类型: replace-cross 摘要：手术指导可以以多种方式提供。在神经外科中，空间定位和方向主要通过参考术前MRI扫描的神经导航系统来实现。最近，在通过分析诸如内窥镜等工具的视频馈送提供实时指导方面，人们的兴趣日益浓厚。现有的方法，包括解剖结构检测、方向反馈、相位识别和视觉问答，主要侧重于协助外科医生评估当前的手术场景。本项工作旨在提供更精细的指导，旨在通过预测手术器械的轨迹来提供指导，基本上是回答了下一步做什么的问题。为了解决这一任务，我们提出了一种模型，该模型不仅利用了手术器械的历史位置，还整合了解剖特征。重要的是，我们的工作并不依赖于手术器械轨迹的明确真实标签。相反，真实标签是由一个检测模型生成的，该模型用于在包含垂体手术视频的全面数据集中检测解剖结构和手术器械。通过分析这些视频中解剖结构和器械运动的互动并预测未来器械运动，我们展示了解剖特征在解决这一具有挑战性任务方面的价值。据我们所知，这是首次尝试解决手动操作手术中的此类任务。