LLM2D

摘要

近年来，对比语言-图像预训练 (CLIP) 成为多模态智能领域的重要基石。然而，最近的研究表明，CLIP 编码过程中的信息损失很大，CLIP 倾向于仅从输入中捕获粗粒度的特征。这种缺陷极大地限制了单个 CLIP 模型处理富含视觉细节的图像的能力。在这项工作中，我们针对 CLIP 提出了一个简单而有效的模型无关策略，即多元化多重体升级 (DMU)。DMU 有效地微调了一系列 CLIP 模型，这些模型从密集的预训练 CLIP 检查点捕获不同的特征空间，除了前馈网络 (FFN) 之外，其他参数共享。然后，这些模型可以被转换为具有更大模型容量的 CLIP-MoE，从而在计算开销最小的前提下显著提高性能。据我们所知，多元化多重体升级是第一个将稀疏激活的 MoE 引入 CLIP 基础模型的方法。大量的实验表明，CLIP-MoE 在各种零样本检索、零样本图像分类任务以及下游多模态大型语言模型 (MLLM) 基准测试中作为视觉编码器，取得了显著的性能提升。此外，多元化多重体升级能够将任何密集的 CLIP 模型转换为 CLIP-MoE，这些模型可以无缝地以即插即用方式替换 CLIP，而无需在下游框架中进行进一步的调整。通过多元化多重体升级，我们旨在为未来开发更有效的多模态学习系统提供有价值的见解。