摘要
arXiv:2405.17139v2 宣告类型: replace-cross
摘要:对比语言-图像预训练(CLIP)作为一种图像表示学习的突出方法脱颖而出。包括视觉变换器(ViTs)和卷积网络(ResNets)在内的各种架构都使用CLIP进行训练,以作为解决各种视觉任务的一般解决方案。本文探讨了各种CLIP训练的视觉基座之间的差异。尽管使用相同的数据和训练目标,我们发现这些架构具有显著不同的表示、不同的跨数据集的分类性能以及对某些类型图像扰动的不同鲁棒性。我们的研究结果表明,通过利用各自的优势,架构之间可能存在显著的协同效应。原则上,通过明智地选择每个测试示例的最佳基座,分类准确率可以提高超过40个百分点。基于这一洞察,我们开发了一种简单而强大的方法,以自适应地组合多个基座。该方法仅使用每个类别的一个带标签的示例来调整基座的自适应组合。在一系列大量数据集上,该方法在最好的单一基座上的准确率提高了高达39.1%,远超传统组合方法。