摘要
近年来,对比语言-图像预训练 (CLIP) 成为多模态智能领域的重要基石。然而,最近的研究表明,CLIP 编码过程中的信息损失很大,CLIP 倾向于仅从输入中捕获粗粒度的特征。这种缺陷极大地限制了单个 CLIP 模型处理富含视觉细节的图像的能力。在这项工作中,我们针对 CLIP 提出了一个简单而有效的模型无关策略,即多元化多重体升级 (DMU)。DMU 有效地微调了一系列 CLIP 模型,这些模型从密集的预训练 CLIP 检查点捕获不同的特征空间,除了前馈网络 (FFN) 之外,其他参数共享。然后,这些模型可以被转换为具有更大模型容量的 CLIP-MoE,从而在计算开销最小的前提下显著提高性能。据我们所知,多元化多重体升级是第一个将稀疏激活的 MoE 引入 CLIP 基础模型的方法。大量的实验表明,CLIP-MoE 在各种零样本检索、零样本图像分类任务以及下游多模态大型语言模型 (MLLM) 基准测试中作为视觉编码器,取得了显著的性能提升。此外,多元化多重体升级能够将任何密集的 CLIP 模型转换为 CLIP-MoE,这些模型可以无缝地以即插即用方式替换 CLIP,而无需在下游框架中进行进一步的调整。通过多元化多重体升级,我们旨在为未来开发更有效的多模态学习系统提供有价值的见解。