LLM2D
VladVA:LVLMs的辨别性微调
VladVA: Discriminative Fine-tuning of LVLMs
作者: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Brais Martinez, Georgios Tzimiropoulos
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2412.04378v3

摘要

arXiv:2412.04378v3 宣告类型: 替换-交叉 摘要:像CLIP这样的对比训练的视觉-语言模型(VLMs)已成为区分视觉-语言表示学习的默认方法。然而,这些模型在语言理解方面有限,常常表现出“词汇包”的行为。同时,大型视觉-语言模型(LVLMs),将视觉编码器与大语言模型(LLMs)结合在一起,已经被证明能够进行详细的视觉-语言推理,但它们的自回归性质使得它们不太适用于区分任务。 在这项工作中,我们提出了一种结合“两者之长”的新方法:一种用于LVLMs区分微调的新训练方法,这种方法使得模型具备强大的区分性和组合能力。本质上,我们的方法将生成型的LVLM转换为区分型的LVLM,从而解锁其强大的图像-文本区分能力,同时增强语言理解。 我们的贡献包括:(1)一个精心设计的训练/优化框架,利用变量长度和粒度的图像-文本对训练模型,结合对比损失和下一个词预测损失,这伴随着消除研究,证明了我们框架各个组件的必要性;(2)一种参数效率的适应方法,结合软提示和LoRA适配器;(3)在与CLIP类似规模的领先模型中,包括标准的图像-文本检索基准,以及在组合性方面的显著改进。