摘要
嵌入模型在实现各种下游任务(如语义相似性、信息检索和聚类)方面至关重要。最近,人们对开发能够跨任务泛化的通用文本嵌入模型(例如 MTEB)产生了浓厚的兴趣。然而,尽管通用多模态嵌入模型的重要性,但其学习方面的进展却相对缓慢。在这项工作中,我们旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两方面:(1)MMEB(大规模多模态嵌入基准),涵盖 4 个元任务(即分类、视觉问答、多模态检索和视觉定位)和 36 个数据集,包括 20 个训练数据集和 16 个评估数据集;(2)VLM2Vec(视觉语言模型 -> 向量),一种对比训练框架,通过在 MMEB 上训练将任何最先进的视觉语言模型转换为嵌入模型。与 CLIP 和 BLIP 等先前模型不同,VLM2Vec 可以处理图像和文本的任何组合,以根据任务指令生成固定维度的向量。我们在 Phi-3.5-V 上构建了一系列 VLM2Vec 模型,并在 MMEB 的评估拆分上对其进行了评估。我们的结果表明,\model 在 MMEB 中的分布内和分布外数据集上,与现有的多模态嵌入模型相比,平均绝对改进率为 10% 到 20%。