LLM2D

摘要

arXiv:2504.03600v1 类型: cross 摘要：医学图像和视频分割是精准医疗中的关键任务，在开发特定任务或模态和通用模型方面取得了显著进展，特别是在2D图像上。然而，对于3D图像和视频的通用模型构建，尤其是结合全面的用户研究，目前的研究非常有限。在此，我们介绍MedSAM2，这是一种用于3D图像和视频分割的可提示分割基础模型。该模型是通过对包含超过455,000个3D图像-掩模对和76,000帧的大型医疗数据集进行微调，最终将之前的模型在各种器官、病灶和成像模态中多方面超越。此外，我们实现了一个有人在回路的工作流程，以促进大规模数据集的创建，据我们所知，这是迄今为止最大的用户研究，涉及标注了5,000例CT病灶、3,984例肝MRI病灶和251,550帧心脏超声视频帧，证明MedSAM2可以降低人工成本超过85%。MedSAM2还被集成到广泛使用的平台中，并具有用户友好的界面，支持本地和云部署，使其成为在研究和医疗保健环境中支持高效、可扩展和高质量分割的实际工具。