LLM2D
用一半的数据和减少400倍的计算量训练一个高性能的视网膜基础模型
Training a high-performance retinal foundation model with half-the-data and 400 times less compute
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2405.00117v2

摘要

人工智能在医学中的应用传统上受限于缺乏大规模的训练数据集。基础模型,即可以使用小数据集适应下游任务的预训练模型,可能会缓解这一问题。Moorfields眼科医院(MEH)的研究人员提出了RETFound-MEH,这是一种在包括私立医院数据在内的90万张图像上训练的视网膜基础模型。最近,提出了数据高效的DERETFound,在仅使用15万张公开可用图像进行训练的情况下,提供了相当的性能。然而,这些模型在最初训练时需要非常庞大的资源,并且在下游使用中资源密集。我们提出了一种新颖的Token Reconstruction目标,用于训练RETFound-Green,这是一种仅使用7.5万张公开可用图像和少400倍计算资源训练的视网膜基础模型。我们估算RETFound-MEH和DERETFound的训练成本分别为10,000美元和14,000美元。RETFound-Green的训练成本不到100美元,环境影响也相应减少。RETFound-Green在下游使用中也高效得多:下载速度快14倍,计算向量嵌入速度快2.7倍,占用存储空间减少2.6倍。尽管如此,RETFound-Green的性能并没有系统性地下降。事实上,在来自巴西、印度和中国的三个下游数据集上的各种任务中,在119次比较中它在68项任务中表现最佳,而DERETFound为21项,RETFound-MEH为13项。我们的结果表明,RETFound-Green是一种非常高效且高性能的视网膜基础模型。我们预计我们的Token Reconstruction目标可以扩展以获得更高的性能,并应用于视网膜成像之外的其他领域。