摘要
像CLIP这样的语言-视觉模型在视觉任务(例如零样本图像分类(ZSIC))方面取得了显著进展。然而,生成具体且表达力强的视觉描述仍然具有挑战性;当前方法生成的描述往往模棱两可且缺乏粒度。为了解决这些问题,我们提出了V-GLOSS:视觉注释,这是一种基于两个关键思想的新方法。第一个是语义提示,它使语言模型以结构化的语义知识为条件。第二个是一种新的对比算法,它可以引出相似概念之间的细微差别。通过这两个想法,我们证明了V-GLOSS改进了视觉描述,并在ImageNet、STL-10、FGVC飞机和Flowers 102等通用和细粒度图像分类数据集上的零样本设置中取得了显著成果。此外,这些描述能力有助于增强图像生成性能。最后,我们引入了一个经过质量检验的银标准数据集,其中包含使用V-GLOSS为所有ImageNet类别生成的描述。