摘要
识别和分离物体中的视觉属性是许多计算机视觉应用的基础。虽然 CLIP 等大型视觉语言表示在很大程度上解决了零样本物体识别的任务,但零样本视觉属性识别仍然是一个挑战,因为 CLIP 的对比学习视觉语言表示无法有效地捕捉物体-属性依赖关系。在本文中,我们针对这一弱点,提出了一种基于句子生成检索的属性识别公式,该公式在以下方面具有新颖性:1)将待测量和检索的物体-属性关系显式地建模为条件概率图,将识别问题转化为依赖敏感的语言建模问题;2)将大型预训练视觉语言模型 (VLM) 应用于该重构,并自然地提取其对图像-物体-属性关系的知识,用于属性识别。具体而言,对于要识别图像上的每个属性,我们测量生成一个短句的视觉条件概率,该短句编码了该属性与图像上物体的关系。与对比检索通过全局对齐句子元素和图像来测量可能性不同,生成检索对句子中物体和属性的顺序和依赖关系很敏感。我们通过实验证明,生成检索在两个视觉推理数据集上始终优于对比检索,这两个数据集分别是野外视觉属性 (VAW) 和我们新提出的视觉基因组属性排名 (VGARank)。