LLM2D
胆囊跟踪20:一种用于手术工具的多视角跟踪数据集
CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools
作者: Chinedu Innocent Nwoye, Kareem Elgohary, Anvita Srinivas, Fauzan Zaid, Jo\"el L. Lavanchy, Nicolas Padoy
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2312.07352v2

摘要

arXiv:2312.07352v2 通告类型: replace-cross 摘要:在手术视频中进行工具跟踪对于推进计算机辅助干预措施至关重要,如技能评估、安全区域估算和人机协作。然而,缺乏富含上下文的数据集限制了人工智能在此领域的应用。现有的数据集依赖于过于通用的跟踪建模,无法捕捉到手术特定的动力学,例如工具离开摄像头视野或退出体外。这导致了临床相关性较弱的轨迹,并且缺乏针对实际手术应用的灵活性。在这些数据集上训练的方法通常在视觉挑战(如烟雾、反射和出血)方面表现不佳,进一步暴露出当前方法的局限性。我们介绍了CholecTrack20,这是一个专门针对手术程序的多类、多工具跟踪数据集。该数据集以三种视角重新定义了跟踪建模:(i) 术中,(ii) 体内,和(iii) 可见性,从而实现可适应且具有临床意义的工具轨迹。数据集包含20个完整的手术视频,每秒框架标注一次,产生了超过35000帧和65000个标注的工具实例。标注信息包括空间位置、类别、身份、操作者、阶段以及场景视觉挑战。在CholecTrack20上对最先进的方法进行基准测试揭示了显著的性能差距,目前的方法未能达到临床转化所需的准确性(<45% HOTA)。这些发现强调了开发更高级且直观的跟踪算法的需求,并确立了CholecTrack20作为开发稳健的人工智能辅助手术系统的基础。