LLM2D

摘要

arXiv:2405.00740v4 宣布类型: 替换-交叉摘要：一千种方式都可以描述一张图片。相比之下，对比语言预训练（CLIP）通过将图像和其描述映射到一个单一的向量中工作——这限制了CLIP类似模型在表示描述图片方式多样性方面的表现。在本文中，我们介绍了Llip，即潜在语言图像预训练，该模型能够模拟与图片匹配的各种描述方式的多样性。Llip的视觉编码器输出一组视觉特征，这些特征通过从文本中获取的信息进行条件化混合到最终表示中。我们展示了Llip在多种任务上优于非上下文化的基线模型，如CLIP和SigLIP，即使使用大规模编码器也是如此。具体来说，Llip在带有ViT-G/14编码器的零样本分类基准测试中提高了2.9%的均值表现。在ImageNet上，Llip实现了83.5%的零样本分类第一精度，超过了同样大小的CLIP 1.4%。我们还在MS-COCO的零样本检索上展示了6.0%的改进。我们对方法引入的组件进行了全面分析，并展示了Llip导致了更丰富的视觉表示。