LLM2D
胎儿CLIP:胎儿超声图像分析的视觉-语言基础模型
FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis
作者: Fadillah Maani, Numan Saeed, Tausifa Saleem, Zaid Farooq, Hussain Alasmawi, Werner Diehl, Ameera Mohammad, Gareth Waring, Saudabi Valappi, Leanne Bricker, Mohammad Yaqub
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2502.14807v2

摘要

arXiv:2502.14807v2 宣告类型: replace-cross 摘要:基础模型在医疗领域的应用越来越有效,提供了可以在大型数据集上预先训练的模型,这些模型可以轻松地适应下游任务。尽管取得了进展,但胎儿超声图像仍然是基础模型面临的一个具有挑战性的领域,这主要是由于其固有的复杂性,通常需要大量的额外训练,并且由于配对多模态数据的稀缺性而受到限制。为了克服这些挑战,我们在这里引入了FetalCLIP,这是一种具备生成胎儿超声图像通用表示能力的视觉-语言基础模型。FetalCLIP通过配对有210,035张胎儿超声图像和文本的多样数据集进行多模态学习进行预先训练。这是迄今为止用于基础模型开发的最大规模的配对数据集。这种独特的训练方法使FetalCLIP能够有效地学习胎儿超声图像中存在的复杂解剖特征,从而生成稳健的表示,这些表示可以用于各种下游应用。在包括分类、孕周估计、先天性心脏病(CHD)检测以及胎儿结构分割在内的多种关键胎儿超声应用的广泛基准测试中,FetalCLIP超越了所有基线模型,同时展示出了出色的推广能力和即使在有限标注数据的情况下仍具有强大的性能。我们计划为更广泛的科学界公开发布FetalCLIP模型。