摘要
arXiv:2410.07610v3 宣告类型: 替换-交叉
摘要:像CLIP这样的多模态编码器在零样本图像分类和跨模态检索等任务上表现出色。然而,它们需要大量的训练数据。我们提出了一种典型的相似性分析(CSA),它使用两个单模态编码器在有限的数据下复制多模态编码器。CSA将单模态特征映射到多模态空间,并使用新的相似性得分保留仅有的多模态信息。CSA仅涉及单模态编码器的推理和三次复杂度的矩阵分解,从而消除了大量的基于GPU的模型训练的需要。实验结果显示,与CLIP相比,CSA在给定预训练的单模态编码器的情况下,在ImageNet分类和误导性的新闻标题检测中,只需要少50,000倍的多模态数据对来桥接模态。CSA超越了最先进的方法,用于将单模态特征映射到多模态特征。我们还展示了CSA在图像和文本之外的模态上的能力,为未来有限配对的多模态数据但丰富的未配对单模态数据的模态配对铺平了道路,例如 lidar 和文本。