LLM2D

摘要

基于对比学习的视觉-语言预训练的最新进展显著提高了计算机视觉任务的性能。然而，在医学领域，由于隐私、敏感性和标注复杂性等原因，获取多模态数据往往成本高昂且充满挑战。为了在提高模型性能的同时减轻数据稀缺问题，我们引入了**Uni-Mlip**，这是一个统一的自监督框架，专门用于增强医学视觉-语言预训练。Uni-Mlip在数据层面和特征层面无缝集成了跨模态、单模态和融合模态的自监督技术。此外，Uni-Mlip还定制了单模态图像自监督技术，以适应医学图像的独特特性。我们在不同规模的数据集上的实验表明，Uni-Mlip在三个关键的下游任务中显著超越了当前最先进的方法：图像-文本检索、图像分类和视觉问答 (VQA)。