LLM2D
多模态视觉基础模型在临床皮肤科学中的应用
A Multimodal Vision Foundation Model for Clinical Dermatology
作者: Siyuan Yan, Zhen Yu, Clare Primiero, Cristina Vico-Alonso, Zhonghua Wang, Litao Yang, Philipp Tschandl, Ming Hu, Lie Ju, Gin Tan, Vincent Tang, Aik Beng Ng, David Powell, Paul Bonnington, Simon See, Elisabetta Magnaterra, Peter Ferguson, Jennifer Nguyen, Pascale Guitera, Jose Banuls, Monika Janda, Victoria Mar, Harald Kittler, H. Peter Soyer, Zongyuan Ge
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.15038v3

摘要

arXiv:2410.15038v3 宣告类型: replace-cross 摘要:诊断和治疗皮肤疾病需要跨领域的高级视觉技能以及从多种成像模态中综合信息的能力。虽然当前的深度学习模型在从皮肤镜图像中诊断皮肤癌等特定任务上表现出色,但在满足临床实践中复杂的、多模态要求方面仍存在困难。在此,我们介绍了PanDerm,这是一个多模态皮肤科基础模型,通过在4种成像模态下从11家临床机构的超过200万张实际皮肤疾病图像中进行自我监督学习进行预训练。我们对28个多样化基准进行了评估,包括皮肤癌筛查、风险分层、常见和罕见皮肤状况的鉴别诊断、病灶分割、纵向监测、以及对转移和预后的预测。PanDerm在所有评估任务中均实现了最先进的性能,且在仅使用10%标记数据的情况下,经常优于现有模型。我们进行了三项读者研究以评估PanDerm的潜在临床应用价值。通过纵向分析,PanDerm在早期黑色素瘤检测方面的性能比临床医生高出10.2%,在皮肤镜图像上的皮肤癌诊断准确性提高了11%,并且在临床照片上的128种皮肤状况的鉴别诊断中提高了非皮肤科医生医疗提供者的16.5%。这些结果表明PanDerm有望在多种临床情景中改善患者护理,并且可以作为开发其他医疗专科多模态基础模型的模型,有可能加快人工智能支持在医疗保健中的集成。相关代码可以在 https://github.com/SiyuanYan1/PanDerm 获取。