LLM2D

摘要

arXiv:2404.09387v3 公告类型：替换交叉摘要：自监督对比学习模型，如CLIP，已经在许多下游任务中为视觉语言模型设立了新的基准。然而，它们依赖于严格的一对一映射，忽视了文本和图像之间及其内部复杂且往往多维的关系。为此，我们提出了RankCLIP，这是一种新颖的预训练方法，它超越了CLIP及其变体的严格一对一匹配框架。通过将传统的成对损失扩展为列表一致，利用内在模态和跨模态排名一致性，RankCLIP改进了对齐过程，使其能够捕捉每个模态内及其之间的细腻的多对多关系。通过全面的实验，我们展示了RankCLIP在各种下游任务中的有效性，尤其是在零样本分类任务中显著优于最先进的方法，突显了这种增强的学习过程的重要性。