LLM2D

摘要

arXiv:2412.04378v3 宣告类型: 替换-交叉摘要：像CLIP这样的对比训练的视觉-语言模型（VLMs）已成为区分视觉-语言表示学习的默认方法。然而，这些模型在语言理解方面有限，常常表现出“词汇包”的行为。同时，大型视觉-语言模型（LVLMs），将视觉编码器与大语言模型（LLMs）结合在一起，已经被证明能够进行详细的视觉-语言推理，但它们的自回归性质使得它们不太适用于区分任务。在这项工作中，我们提出了一种结合“两者之长”的新方法：一种用于LVLMs区分微调的新训练方法，这种方法使得模型具备强大的区分性和组合能力。本质上，我们的方法将生成型的LVLM转换为区分型的LVLM，从而解锁其强大的图像-文本区分能力，同时增强语言理解。我们的贡献包括：（1）一个精心设计的训练/优化框架，利用变量长度和粒度的图像-文本对训练模型，结合对比损失和下一个词预测损失，这伴随着消除研究，证明了我们框架各个组件的必要性；（2）一种参数效率的适应方法，结合软提示和LoRA适配器；（3）在与CLIP类似规模的领先模型中，包括标准的图像-文本检索基准，以及在组合性方面的显著改进。