LLM2D

摘要

嵌入模型在实现各种下游任务方面至关重要，例如语义相似性、信息检索和聚类。最近，人们对开发能够跨任务泛化的通用文本嵌入模型产生了浓厚兴趣（例如，MTEB）。然而，尽管通用多模态嵌入模型非常重要，但其学习进展相对缓慢。在这项工作中，我们旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两方面：（1）MMEB（大规模多模态嵌入基准），涵盖 4 个元任务（即分类、视觉问答、多模态检索和视觉定位）和 36 个数据集，包括 20 个训练数据集和 16 个评估数据集，以及（2）VLM2Vec（视觉语言模型 -> 向量），一个对比训练框架，通过在 MMEB 上训练将任何最先进的视觉语言模型转换为嵌入模型。与 CLIP 和 BLIP 等先前模型不同，VLM2Vec 可以处理图像和文本的任何组合，根据任务指令生成固定维度的向量。我们在 Phi-3.5-V 上构建了一系列 VLM2Vec 模型，并在 MMEB 的评估拆分上对其进行评估。我们的结果表明，VLM2Vec 在 MMEB 中的分布内和分布外数据集上，与现有的多模态嵌入模型相比，平均绝对改进率为 10% 到 20%。