LLM2D

摘要

人工智能在医学中的应用传统上受限于缺乏大规模的训练数据集。基础模型，即可以使用小数据集适应下游任务的预训练模型，可能会缓解这一问题。Moorfields眼科医院（MEH）的研究人员提出了RETFound-MEH，这是一种在包括私立医院数据在内的90万张图像上训练的视网膜基础模型。最近，提出了数据高效的DERETFound，在仅使用15万张公开可用图像进行训练的情况下，提供了相当的性能。然而，这些模型在最初训练时需要非常庞大的资源，并且在下游使用中资源密集。我们提出了一种新颖的Token Reconstruction目标，用于训练RETFound-Green，这是一种仅使用7.5万张公开可用图像和少400倍计算资源训练的视网膜基础模型。我们估算RETFound-MEH和DERETFound的训练成本分别为10,000美元和14,000美元。RETFound-Green的训练成本不到100美元，环境影响也相应减少。RETFound-Green在下游使用中也高效得多：下载速度快14倍，计算向量嵌入速度快2.7倍，占用存储空间减少2.6倍。尽管如此，RETFound-Green的性能并没有系统性地下降。事实上，在来自巴西、印度和中国的三个下游数据集上的各种任务中，在119次比较中它在68项任务中表现最佳，而DERETFound为21项，RETFound-MEH为13项。我们的结果表明，RETFound-Green是一种非常高效且高性能的视网膜基础模型。我们预计我们的Token Reconstruction目标可以扩展以获得更高的性能，并应用于视网膜成像之外的其他领域。