摘要
基于对比学习的视觉-语言预训练的最新进展显著提高了计算机视觉任务的性能。然而,在医学领域,由于隐私、敏感性和标注复杂性等原因,获取多模态数据往往成本高昂且充满挑战。为了在提高模型性能的同时减轻数据稀缺问题,我们引入了**Uni-Mlip**,这是一个统一的自监督框架,专门用于增强医学视觉-语言预训练。Uni-Mlip在数据层面和特征层面无缝集成了跨模态、单模态和融合模态的自监督技术。此外,Uni-Mlip还定制了单模态图像自监督技术,以适应医学图像的独特特性。我们在不同规模的数据集上的实验表明,Uni-Mlip在三个关键的下游任务中显著超越了当前最先进的方法:图像-文本检索、图像分类和视觉问答 (VQA)。