LLM2D
三重奏:用于3D磁共振成像的视觉基础模型
Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging
作者: Shansong Wang, Mojtaba Safari, Qiang Li, Chih-Wei Chang, Richard LJ Qiu, Justin Roper, David S. Yu, Xiaofeng Yang
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14064v1

摘要

arXiv:2502.14064v1 宣告类型: cross 摘要:视觉基础模型(VFMs)是在广泛的图像数据集上进行预训练,以学习适用于多种类型数据的一般表示。这些模型可以随后针对特定的下游任务进行微调,从而在一系列应用场景中大幅提升性能。然而,目前声称适用于各种放射学任务的视觉基础模型大多是在3D计算机断层扫描(CT)上进行预训练,这得益于3D CT数据库的广泛可用性。CT和磁共振成像(MRI)在成像原理、信号特征和数据分布方面的显著差异可能阻碍其在MRI特定应用中的实际性能和通用性。在这里,我们提出了一种针对3D MRI的视觉基础模型——Triad。Triad采用了广泛使用的自动编码器架构,从131,170个3D MRI体素中学习稳健的表示,并使用器官独立的成像描述来限制视觉模态的语义分布。上述预训练数据集称为Triad-131K,是目前最大的3D MRI预训练数据集。我们使用25个下游数据集,在两个数据模态(领域内和领域的)设置下,分别对器官/肿瘤分割、器官/癌症分类和医疗图像配准这三个任务进行了评估。通过使用Triad预训练权重初始化模型,nnUNet-Triad在17个数据集中相比nnUNet-Scratch提高了6.88%的分割性能。Swin-B-Triad在五个数据集上的分类任务中相比Swin-B-Scratch提高了3.97%。SwinUNETR-Triad在两个数据集上的配准任务中相比SwinUNETR-Scratch提高了4.00%。我们的研究表明,在上游和下游任务的数据模态和器官一致时,预训练可以最大化性能。