LLM2D
RankCLIP:排名一致的语义-图像预训练
RankCLIP: Ranking-Consistent Language-Image Pretraining
作者: Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2404.09387v3

摘要

arXiv:2404.09387v3 公告类型:替换交叉 摘要:自监督对比学习模型,如CLIP,已经在许多下游任务中为视觉语言模型设立了新的基准。然而,它们依赖于严格的一对一映射,忽视了文本和图像之间及其内部复杂且往往多维的关系。为此,我们提出了RankCLIP,这是一种新颖的预训练方法,它超越了CLIP及其变体的严格一对一匹配框架。通过将传统的成对损失扩展为列表一致,利用内在模态和跨模态排名一致性,RankCLIP改进了对齐过程,使其能够捕捉每个模态内及其之间的细腻的多对多关系。通过全面的实验,我们展示了RankCLIP在各种下游任务中的有效性,尤其是在零样本分类任务中显著优于最先进的方法,突显了这种增强的学习过程的重要性。