摘要
近年来,对比语言-图像预训练(CLIP)已成为多模态智能的基石。然而,最近的研究表明,CLIP编码过程中的信息损失非常大,CLIP倾向于只从输入中捕捉粗粒度的特征。这种缺陷严重限制了单个CLIP模型处理富含视觉细节的图像的能力。在这项工作中,我们针对CLIP提出了一种简单而有效的模型无关策略,即多元多重上采样(DMU)。DMU有效地微调了一系列CLIP模型,这些模型从一个密集的预训练CLIP检查点中捕获不同的特征空间,除了前馈网络(FFN)之外,共享参数。然后,这些模型可以被转换为具有更大模型容量的CLIP-MoE,从而在计算开销最小的前提下显著提高性能。据我们所知,多元多重上采样是第一个将稀疏激活的MoE引入CLIP基础模型的方法。大量的实验表明,CLIP-MoE在各种零样本检索、零样本图像分类任务以及作为视觉编码器的下游多模态大型语言模型(MLLM)基准上都表现出显著的性能。此外,多元多重上采样能够将任何密集的CLIP模型转换为CLIP-MoE,这些模型可以无缝地以即插即用方式替换CLIP,而无需在下游框架中进行进一步的适应。通过多元多重上采样,我们旨在为未来开发更有效率、更有效的多模态学习系统提供有价值的见解。