摘要
arXiv:2404.09387v3 公告类型:替换交叉
摘要:自监督对比学习模型,如CLIP,已经在许多下游任务中为视觉语言模型设立了新的基准。然而,它们依赖于严格的一对一映射,忽视了文本和图像之间及其内部复杂且往往多维的关系。为此,我们提出了RankCLIP,这是一种新颖的预训练方法,它超越了CLIP及其变体的严格一对一匹配框架。通过将传统的成对损失扩展为列表一致,利用内在模态和跨模态排名一致性,RankCLIP改进了对齐过程,使其能够捕捉每个模态内及其之间的细腻的多对多关系。通过全面的实验,我们展示了RankCLIP在各种下游任务中的有效性,尤其是在零样本分类任务中显著优于最先进的方法,突显了这种增强的学习过程的重要性。