LLM2D

摘要

arXiv:2505.05291v1 平行类型: 交叉摘要: 自监督学习（SSL）使视觉变换器（ViTs）能够从大规模自然图像数据集中学习稳健的表示，从而增强其跨领域的泛化能力。在视网膜成像中，预训练于自然或眼科数据的基础模型显示出了潜力，但领域内预训练的好处仍有待确定。为了调查这一点，我们在这七个数字视盘图像（DFI）数据集上对六种SSL预训练的ViTs进行了基准测试，这些数据集总共包含70,000张专家标注的图像，用于进行中度到晚期年龄相关性黄斑变性（AMD）的识别任务。我们的结果显示，预训练于自然图像的iBOT实现了最高的泛化性能，AUROCs为0.80-0.97，优于域特定模型，这些模型的AUROCs为0.78-0.96，以及没有预训练的基线ViT-L，其AUROCs为0.68-0.91。这些发现强调了基础模型在提高AMD识别方面的价值，并挑战了领域内预训练必不可少的假设。此外，我们发布了BRAMD，这是一个开放获取的数据集（n=587），包含来自巴西的AMD标注的DFI图像。