摘要
像 CLIP 这样的多模态编码器在零样本图像分类和跨模态检索等任务中表现出色。然而,它们需要大量的训练数据。我们提出了规范相似性分析 (CSA),它使用两个单模态编码器来用有限的数据复制多模态编码器。CSA 将单模态特征映射到多模态空间,使用新的相似性得分仅保留多模态信息。CSA 只涉及单模态编码器的推断和三次复杂度矩阵分解,消除了对大量基于 GPU 的模型训练的需求。实验表明,CSA 在 ImageNet 分类和错误信息新闻标题检测方面优于 CLIP,同时需要少 $300,000\times$ 倍的多模态数据对和少 $6\times$ 倍的单模态数据。CSA 超越了将单模态特征映射到多模态特征的最先进方法。我们还证明了 CSA 在图像和文本以外的模态中的能力,为未来具有有限配对多模态数据但大量非配对单模态数据(如激光雷达和文本)的模态对铺平了道路。