摘要
arXiv:2504.12717v1 类型: cross
摘要: 对比语言图像预训练(CLIP)是构建现代多模态视觉语言基础模型的核心组件。尽管CLIP在下游任务上展示了显著的零样本性能,但多模态特征空间仍然存在模态差距,即图像特征和文本特征簇之间的差距,限制了下游任务的性能。尽管现有工作通过修改预训练或微调试图解决模态差距,但在大型数据集上进行训练时会面临高昂的训练成本,或者导致零样本性能下降。本文提出了CLIP-Refine,这是一种在预训练和微调之间的阶段对CLIP模型进行的后处理方法。CLIP-Refine旨在通过在小型图像-文本数据集上进行1个epoch的训练来使特征空间对齐,而不影响零样本性能。为此,我们提出了两种技术:随机特征对齐(RaFA)和混合对比蒸馏(HyCD)。RaFA通过将图像和文本特征对齐到先验分布中,最小化与从先验中采样的随机参考向量的距离,来实现这一目标。HyCD通过结合真实图像-文本对标签和预训练CLIP模型的输出生成混合软标签来更新模型。这有助于同时维护过去的知识并学习新的知识以对齐特征。我们使用多个分类和检索任务进行了广泛的实验,结果显示CLIP-Refine成功地缓解了模态差距并提高了零样本性能。