摘要
嵌入模型在实现各种下游任务方面至关重要,例如语义相似性、信息检索和聚类。最近,人们对开发能够跨任务泛化的通用文本嵌入模型产生了浓厚兴趣(例如,MTEB)。然而,尽管通用多模态嵌入模型非常重要,但其学习进展相对缓慢。在这项工作中,我们旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两方面:(1)MMEB(大规模多模态嵌入基准),涵盖 4 个元任务(即分类、视觉问答、多模态检索和视觉定位)和 36 个数据集,包括 20 个训练数据集和 16 个评估数据集,以及(2)VLM2Vec(视觉语言模型 -> 向量),一个对比训练框架,通过在 MMEB 上训练将任何最先进的视觉语言模型转换为嵌入模型。与 CLIP 和 BLIP 等先前模型不同,VLM2Vec 可以处理图像和文本的任何组合,根据任务指令生成固定维度的向量。我们在 Phi-3.5-V 上构建了一系列 VLM2Vec 模型,并在 MMEB 的评估拆分上对其进行评估。我们的结果表明,VLM2Vec 在 MMEB 中的分布内和分布外数据集上,与现有的多模态嵌入模型相比,平均绝对改进率为 10% 到 20%。