LLM2D
EgoSurgery-Tool:来自第一人称视角开放手术视频的手术工具和手部检测数据集
EgoSurgery-Tool: A Dataset of Surgical Tool and Hand Detection from Egocentric Open Surgery Videos
作者: Ryo Fujii, Hideo Saito, Hiroki Kajita
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2406.03095v4

摘要

手术工具检测是理解以自我为中心的开放式手术视频的一项基本任务。然而,由于手术工具类别分布高度不平衡、形状和纹理相似以及严重遮挡等原因,检测手术工具面临着巨大的挑战。缺乏全面的大型数据集加剧了这些挑战。本文介绍了EgoSurgery-Tool数据集,它是现有EgoSurgery-Phase数据集的扩展,包含使用安装在外科医生头部上的自我中心摄像机拍摄的真实开放式手术视频以及阶段标注。EgoSurgery-Tool对手术工具进行了密集标注,包含超过49,000个跨15个类别的外科手术工具边界框,构成一个大型的手术工具检测数据集。EgoSurgery-Tool还提供了超过46,000个手部边界框的手部检测标注,捕捉了对手术中理解活动至关重要的手部-物体交互。由于规模更大、手术工具种类更多、标注更多以及场景更密集,EgoSurgery-Tool优于现有数据集。我们使用九种流行的目标检测器对EgoSurgery-Tool进行了全面的分析,以评估其在手术工具和手部检测中的有效性。该数据集将发布在https://github.com/Fujiry0/EgoSurgery。