LLM2D
保留预训练视觉语言模型的多模态能力以提升视觉语言组合性
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
作者: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05210v1

摘要

本文提出了一种新的方法,在不牺牲零样本多模态任务性能的情况下,增强预训练视觉和语言模型(VLMs)的组合理解能力。传统的微调方法通常以降低多模态能力为代价来提高组合推理能力,这主要是因为使用了全局硬负(HN)损失,该损失对比了图像和文本的全局表示。这种全局HN损失会将与原始文本高度相似的HN文本推向模型,从而损害模型的多模态表示。为了克服这一局限性,我们提出了细粒度选择性校准CLIP(FSC-CLIP),它集成了局部硬负损失和选择性校准正则化。这些创新提供了细粒度的负监督,同时保留了模型的表示完整性。我们在组合性和多模态任务的不同基准上进行了广泛的评估,结果表明,FSC-CLIP不仅在组合性方面达到了最先进模型的水平,而且还保留了强大的多模态能力。代码可在以下地址获取:https://github.com/ytaek-oh/fsc-clip。