LLM2D

摘要

arXiv:2502.02779v1 交叉类型：cross 摘要：头部计算机断层扫描（CT）成像是一种广泛使用的成像技术，具有众多医疗应用，特别是在评估脑部、颅骨和 cerebrovascular 系统的病理方面。由于其快速的图像获取速度、安全性、成本效益和普及性，它通常被视为神经科紧急情况的第一线成像技术。深度学习模型可以促进对广泛疾病的检测。然而，高质量标签和注释的缺乏，尤其是在罕见疾病方面，极大地阻碍了强大模型的发展。为了解决这一挑战，我们引入了 FM-CT：一种用于头部 CT 的基础模型，用于通用疾病的检测，该模型使用半监督学习进行训练。我们的方法利用大型、多样化的包含 361,663 个非对比 3D 头部 CT 扫描的数据集进行预训练，而无需手动注释，使模型能够学习稳健的、可泛化的特征。为了研究半监督学习在头部 CT 中的潜力，我们采用了自蒸馏和掩码图像建模相结合的方法，并将模型构建为三维而非切片级别（二维），以更全面、更高效地利用头部 CT 扫描的结构。模型的下游分类性能通过内部和三个外部数据集进行评估，涵盖分布内（ID）和分布外（OOD）数据。我们的结果显示，半监督基础模型在下游诊断任务中的表现优于从头开始训练的模型以及在稀缺注释数据集上训练的 3D CT 基础模型。这项工作突显了半监督学习在医学成像中的有效性，并为 3D 头部 CT 图像分析设定了新的基准，从而使基于头部 CT 的人工智能诊断得到更广泛的使用。