LLM2D
块扩展 DINORET:适应自然领域基础模型以进行视网膜成像而不会发生灾难性遗忘
Block Expanded DINORET: Adapting Natural Domain Foundation Models for Retinal Imaging Without Catastrophic Forgetting
作者: Jay Zoellin, Colin Merk, Mischa Buob, Amr Saad, Samuel Giesser, Tahm Spitznagel, Ferhat Turgut, Rui Santos, Yukun Zhou, Sigfried Wagner, Pearse A. Keane, Yih Chung Tham, Delia Cabrera DeBuc, Matthias D. Becker, Gabor M. Somfai
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17332v1

摘要

将深度学习融入医学影像有望极大地推动诊断方法的发展,但它面临着泛化性的挑战。基于自监督学习的预训练模型解决了这些问题,并提高了数据效率。自然领域预训练模型在医学影像方面显示出巨大潜力,但系统地评估领域自适应,特别是使用自监督学习和参数高效微调的研究仍未得到充分探索。此外,很少有研究解决预训练模型微调过程中灾难性遗忘问题。我们使用自监督学习将 DINOv2 视觉 Transformer 适应于视网膜影像分类任务,并生成了两个名为 DINORET 和 BE DINORET 的新型预训练模型。公开可用的彩色眼底照片被用于模型开发和随后的微调,以进行糖尿病视网膜病变分期和青光眼检测。我们引入了块扩展作为一种新的领域自适应策略,并评估了模型的灾难性遗忘问题。模型以 RETFound(眼科领域最先进的预训练模型)为基准。DINORET 和 BE DINORET 在视网膜影像任务中表现出竞争力,其中块扩展模型在大多数数据集上取得了最高得分。块扩展成功地减轻了灾难性遗忘。我们的少样本学习研究表明,DINORET 和 BE DINORET 在数据效率方面优于 RETFound。本研究强调了使用自监督学习和块扩展将自然领域视觉模型适应于视网膜影像的潜力。BE DINORET 在不牺牲先前获得的能力的情况下提供强大的性能。我们的研究结果表明,这些方法可以使医疗机构为其患者群体开发定制的视觉模型,从而增强全球医疗保健的包容性。