LLM2D

摘要

磁共振成像（MRI）和计算机断层扫描（CT）是诊断复杂疾病必不可少的临床横断面成像技术。然而，用于深度学习的大型三维数据集及其标注却十分匮乏。虽然像DINOv2这样的方法在二维图像分析方面令人鼓舞，但这些方法尚未应用于三维医学图像。此外，由于其“黑盒”性质，深度学习模型往往缺乏可解释性。本研究旨在将二维自监督模型，特别是DINOv2，扩展到三维医学影像，同时评估其产生可解释结果的潜力。我们引入了医学切片Transformer（MST）框架，以适应三维医学图像分析的二维自监督模型。MST将Transformer架构与二维特征提取器（即DINOv2）相结合。我们在三个临床数据集上评估了其诊断性能，与三维卷积神经网络（3D ResNet）进行对比：乳腺MRI（651例患者）、胸部CT（722例患者）和膝关节MRI（1199例患者）。两种方法都用于诊断乳腺癌、预测肺结节良恶性和检测半月板撕裂。通过计算受试者工作特征曲线下面积（AUC）来评估诊断性能。通过放射科医生对基于切片和病灶正确性的显著性图进行定性比较来评估可解释性。使用Delong检验计算P值。在所有三个数据集中，MST的AUC值均高于ResNet：乳腺（0.94±0.01 vs. 0.91±0.02，P=0.02）、胸部（0.95±0.01 vs. 0.92±0.02，P=0.13）和膝关节（0.85±0.04 vs. 0.69±0.05，P=0.001）。与ResNet相比，MST的显著性图始终更精确，并且在解剖学上更准确。像DINOv2这样的自监督二维模型可以使用MST有效地适应三维医学影像，与卷积神经网络相比，它提供了更高的诊断准确性和可解释性。