LLM2D

摘要

识别和解耦物体中的视觉属性是许多计算机视觉应用的基础。虽然像 CLIP 这样的大型视觉语言表示在很大程度上解决了零样本物体识别的任务，但零样本视觉属性识别仍然是一个挑战，因为 CLIP 的对比学习的视觉语言表示不能有效地捕捉物体-属性依赖关系。在本文中，我们针对这一弱点，提出了一种基于句子生成的检索公式来进行属性识别，该公式在以下方面是新颖的：1）显式地将待测量和检索的物体-属性关系建模为一个条件概率图，将识别问题转化为依赖敏感的语言建模问题；2）将大型预训练的视觉-语言模型 (VLM) 应用于这种重新表述，并自然地提取其对图像-物体-属性关系的知识，用于属性识别。具体来说，对于要识别图像上的每个属性，我们测量了生成一个短句的视觉条件概率，该短句编码了属性与图像上物体的关系。与对比检索不同的是，对比检索通过全局对齐句子元素与图像来衡量可能性，生成检索对句子中物体和属性的顺序和依赖关系敏感。我们通过实验表明，生成检索在两个视觉推理数据集 Visual Attribute in the Wild (VAW) 和我们新提出的 Visual Genome Attribute Ranking (VGARank) 上始终优于对比检索。