LLM2D
对比视觉-语言预训练中caption多样性的建模
Modeling Caption Diversity in Contrastive Vision-Language Pretraining
作者: Samuel Lavoie, Polina Kirichenko, Mark Ibrahim, Mahmoud Assran, Andrew Gordon Wilson, Aaron Courville, Nicolas Ballas
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2405.00740v4

摘要

arXiv:2405.00740v4 宣布类型: 替换-交叉 摘要:一千种方式都可以描述一张图片。相比之下,对比语言预训练(CLIP)通过将图像和其描述映射到一个单一的向量中工作——这限制了CLIP类似模型在表示描述图片方式多样性方面的表现。在本文中,我们介绍了Llip,即潜在语言图像预训练,该模型能够模拟与图片匹配的各种描述方式的多样性。Llip的视觉编码器输出一组视觉特征,这些特征通过从文本中获取的信息进行条件化混合到最终表示中。我们展示了Llip在多种任务上优于非上下文化的基线模型,如CLIP和SigLIP,即使使用大规模编码器也是如此。具体来说,Llip在带有ViT-G/14编码器的零样本分类基准测试中提高了2.9%的均值表现。在ImageNet上,Llip实现了83.5%的零样本分类第一精度,超过了同样大小的CLIP 1.4%。我们还在MS-COCO的零样本检索上展示了6.0%的改进。我们对方法引入的组件进行了全面分析,并展示了Llip导致了更丰富的视觉表示。