LLM2D

摘要

arXiv:2409.18119v2 Announce Type: replace-cross 摘要：对比语言-图像预训练模型（CLIP）在医学图像分析中展示了强大的潜力，但需要大量数据和计算资源。由于这些限制，现有的CLIP在医学成像中的应用主要集中在如胸片这些有大量的图像报告数据可用的模态上，而其他许多重要的模态则被忽视。在此，我们提出了一种将完整CLIP模型首次应用于乳腺摄影的适应性方法，乳腺摄影由于标注数据稀缺、高分辨率图像中小区域兴趣以及类别间的不平衡，带来了重大挑战。我们首先开发了一种专门针对乳腺摄影的监督框架，利用其多视角特性。此外，我们设计了一个对称局部对齐模块，以更好地关注高分辨率图像中的详细特征。最后，我们引入了一种参数高效的微调方法，用于在医学知识下预训练的大语言模型以解决数据限制问题。我们的多视角和多尺度对齐（MaMA）方法在两个大规模实际乳腺摄影数据集EMBED和RSNA-Mammo上，对于三个不同的任务，以仅比最大的基线模型52%的模型大小，实现了优于当前最先进的基线方法的效果。代码可在https://github.com/XYPB/MaMA 获取。