LLM2D

摘要

arXiv:2504.12717v1 类型: cross 摘要: 对比语言图像预训练（CLIP）是构建现代多模态视觉语言基础模型的核心组件。尽管CLIP在下游任务上展示了显著的零样本性能，但多模态特征空间仍然存在模态差距，即图像特征和文本特征簇之间的差距，限制了下游任务的性能。尽管现有工作通过修改预训练或微调试图解决模态差距，但在大型数据集上进行训练时会面临高昂的训练成本，或者导致零样本性能下降。本文提出了CLIP-Refine，这是一种在预训练和微调之间的阶段对CLIP模型进行的后处理方法。CLIP-Refine旨在通过在小型图像-文本数据集上进行1个epoch的训练来使特征空间对齐，而不影响零样本性能。为此，我们提出了两种技术：随机特征对齐（RaFA）和混合对比蒸馏（HyCD）。RaFA通过将图像和文本特征对齐到先验分布中，最小化与从先验中采样的随机参考向量的距离，来实现这一目标。HyCD通过结合真实图像-文本对标签和预训练CLIP模型的输出生成混合软标签来更新模型。这有助于同时维护过去的知识并学习新的知识以对齐特征。我们使用多个分类和检索任务进行了广泛的实验，结果显示CLIP-Refine成功地缓解了模态差距并提高了零样本性能。