LLM2D

摘要

像CLIP这样的语言-视觉模型在视觉任务（例如零样本图像分类（ZSIC））方面取得了显著进展。然而，生成具体且表达力强的视觉描述仍然具有挑战性；当前方法生成的描述往往模棱两可且缺乏粒度。为了解决这些问题，我们提出了V-GLOSS：视觉注释，这是一种基于两个关键思想的新方法。第一个是语义提示，它使语言模型以结构化的语义知识为条件。第二个是一种新的对比算法，它可以引出相似概念之间的细微差别。通过这两个想法，我们证明了V-GLOSS改进了视觉描述，并在ImageNet、STL-10、FGVC飞机和Flowers 102等通用和细粒度图像分类数据集上的零样本设置中取得了显著成果。此外，这些描述能力有助于增强图像生成性能。最后，我们引入了一个经过质量检验的银标准数据集，其中包含使用V-GLOSS为所有ImageNet类别生成的描述。