摘要
大型多模态编码器如CLIP在零样本图像分类和跨模态检索等任务中表现出色,但需要大量的训练数据。我们提出了一种规范相似性分析方法(CSA),该方法使用两个单模态编码器,利用有限的数据来复制多模态编码器。CSA将单模态特征映射到多模态空间,并使用一种新的相似性评分来仅保留多模态信息。CSA仅涉及单模态编码器的推理和三次复杂度的矩阵分解,无需进行大量的基于GPU的模型训练。实验表明,在ImageNet分类和虚假新闻标题检测任务中,CSA的性能优于CLIP,同时所需的多模态数据对减少了30万倍,单模态数据减少了6倍。CSA超越了最先进的方法,可以将单模态特征映射到多模态特征。我们还展示了CSA在图像和文本以外模态上的能力,为未来具有有限配对多模态数据但大量非配对单模态数据的模态对(例如激光雷达和文本)铺平了道路。