LLM2D

摘要

对比语言-图像预训练（CLIP）在医学图像分析中展现出巨大潜力，但需要大量数据和计算资源。由于这些限制，现有的医学影像CLIP应用主要集中在胸部X光等拥有丰富图像-报告数据的模态，而许多其他重要模态则被忽视。本文首次将完整的CLIP模型应用于乳腺X线摄影，这带来了巨大的挑战，因为该领域存在标记数据稀缺、高分辨率图像中感兴趣区域小以及数据不平衡等问题。我们首先针对乳腺X线摄影的多视图特性开发了一种专门的监督框架。此外，我们设计了一个对称局部对齐模块，以更好地关注高分辨率图像中的细节特征。最后，我们将参数高效微调方法应用于预先训练了医学知识的大型语言模型，以解决数据限制问题。我们的多视图和多尺度对齐（MaMA）方法在两个大型真实世界乳腺X线摄影数据集EMBED和RSNA-Mammo上，针对三种不同的任务，超过了最先进的基线，并且模型大小仅为最大基线的52%。