LLM2D

摘要

本文提出了一种新的方法，在不牺牲零样本多模态任务性能的情况下，增强预训练视觉和语言模型（VLMs）的组合理解能力。传统的微调方法通常以降低多模态能力为代价来提高组合推理能力，这主要是因为使用了全局硬负（HN）损失，该损失对比了图像和文本的全局表示。这种全局HN损失会将与原始文本高度相似的HN文本推向模型，从而损害模型的多模态表示。为了克服这一局限性，我们提出了细粒度选择性校准CLIP（FSC-CLIP），它集成了局部硬负损失和选择性校准正则化。这些创新提供了细粒度的负监督，同时保留了模型的表示完整性。我们在组合性和多模态任务的不同基准上进行了广泛的评估，结果表明，FSC-CLIP不仅在组合性方面达到了最先进模型的水平，而且还保留了强大的多模态能力。代码可在以下地址获取：https://github.com/ytaek-oh/fsc-clip。