LLM2D
语义提示语言模型改进视觉描述
Semantically-Prompted Language Models Improve Visual Descriptions
作者: Michael Ogezi, Bradley Hauer, Grzegorz Kondrak
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2306.06077v4

摘要

像CLIP这样的语言-视觉模型在视觉任务(例如零样本图像分类(ZSIC))方面取得了显著进展。然而,生成具体且表达力强的视觉描述仍然具有挑战性;当前方法生成的描述往往模棱两可且缺乏粒度。为了解决这些问题,我们提出了V-GLOSS:视觉注释,这是一种基于两个关键思想的新方法。第一个是语义提示,它使语言模型以结构化的语义知识为条件。第二个是一种新的对比算法,它可以引出相似概念之间的细微差别。通过这两个想法,我们证明了V-GLOSS改进了视觉描述,并在ImageNet、STL-10、FGVC飞机和Flowers 102等通用和细粒度图像分类数据集上的零样本设置中取得了显著成果。此外,这些描述能力有助于增强图像生成性能。最后,我们引入了一个经过质量检验的银标准数据集,其中包含使用V-GLOSS为所有ImageNet类别生成的描述。