LLM2D

摘要

大型多模态编码器如CLIP在零样本图像分类和跨模态检索等任务中表现出色，但需要大量的训练数据。我们提出了一种规范相似性分析方法（CSA），该方法使用两个单模态编码器，利用有限的数据来复制多模态编码器。CSA将单模态特征映射到多模态空间，并使用一种新的相似性评分来仅保留多模态信息。CSA仅涉及单模态编码器的推理和三次复杂度的矩阵分解，无需进行大量的基于GPU的模型训练。实验表明，在ImageNet分类和虚假新闻标题检测任务中，CSA的性能优于CLIP，同时所需的多模态数据对减少了30万倍，单模态数据减少了6倍。CSA超越了最先进的方法，可以将单模态特征映射到多模态特征。我们还展示了CSA在图像和文本以外模态上的能力，为未来具有有限配对多模态数据但大量非配对单模态数据的模态对（例如激光雷达和文本）铺平了道路。