摘要
arXiv:2505.05291v1 平行类型: 交叉
摘要: 自监督学习(SSL)使视觉变换器(ViTs)能够从大规模自然图像数据集中学习稳健的表示,从而增强其跨领域的泛化能力。在视网膜成像中,预训练于自然或眼科数据的基础模型显示出了潜力,但领域内预训练的好处仍有待确定。为了调查这一点,我们在这七个数字视盘图像(DFI)数据集上对六种SSL预训练的ViTs进行了基准测试,这些数据集总共包含70,000张专家标注的图像,用于进行中度到晚期年龄相关性黄斑变性(AMD)的识别任务。我们的结果显示,预训练于自然图像的iBOT实现了最高的泛化性能,AUROCs为0.80-0.97,优于域特定模型,这些模型的AUROCs为0.78-0.96,以及没有预训练的基线ViT-L,其AUROCs为0.68-0.91。这些发现强调了基础模型在提高AMD识别方面的价值,并挑战了领域内预训练必不可少的假设。此外,我们发布了BRAMD,这是一个开放获取的数据集(n=587),包含来自巴西的AMD标注的DFI图像。