LLM2D

摘要

arXiv:2502.14064v1 宣告类型: cross 摘要：视觉基础模型(VFMs)是在广泛的图像数据集上进行预训练，以学习适用于多种类型数据的一般表示。这些模型可以随后针对特定的下游任务进行微调，从而在一系列应用场景中大幅提升性能。然而，目前声称适用于各种放射学任务的视觉基础模型大多是在3D计算机断层扫描(CT)上进行预训练，这得益于3D CT数据库的广泛可用性。CT和磁共振成像(MRI)在成像原理、信号特征和数据分布方面的显著差异可能阻碍其在MRI特定应用中的实际性能和通用性。在这里，我们提出了一种针对3D MRI的视觉基础模型——Triad。Triad采用了广泛使用的自动编码器架构，从131,170个3D MRI体素中学习稳健的表示，并使用器官独立的成像描述来限制视觉模态的语义分布。上述预训练数据集称为Triad-131K，是目前最大的3D MRI预训练数据集。我们使用25个下游数据集，在两个数据模态（领域内和领域的）设置下，分别对器官/肿瘤分割、器官/癌症分类和医疗图像配准这三个任务进行了评估。通过使用Triad预训练权重初始化模型，nnUNet-Triad在17个数据集中相比nnUNet-Scratch提高了6.88%的分割性能。Swin-B-Triad在五个数据集上的分类任务中相比Swin-B-Scratch提高了3.97%。SwinUNETR-Triad在两个数据集上的配准任务中相比SwinUNETR-Scratch提高了4.00%。我们的研究表明，在上游和下游任务的数据模态和器官一致时，预训练可以最大化性能。