LLM2D

摘要

识别和分离物体中的视觉属性是许多计算机视觉应用的基础。虽然 CLIP 等大型视觉语言表示在很大程度上解决了零样本物体识别的任务，但零样本视觉属性识别仍然是一个挑战，因为 CLIP 的对比学习视觉语言表示无法有效地捕捉物体-属性依赖关系。在本文中，我们针对这一弱点，提出了一种基于句子生成检索的属性识别公式，该公式在以下方面具有新颖性：1）将待测量和检索的物体-属性关系显式地建模为条件概率图，将识别问题转化为依赖敏感的语言建模问题；2）将大型预训练视觉语言模型 (VLM) 应用于该重构，并自然地提取其对图像-物体-属性关系的知识，用于属性识别。具体而言，对于要识别图像上的每个属性，我们测量生成一个短句的视觉条件概率，该短句编码了该属性与图像上物体的关系。与对比检索通过全局对齐句子元素和图像来测量可能性不同，生成检索对句子中物体和属性的顺序和依赖关系很敏感。我们通过实验证明，生成检索在两个视觉推理数据集上始终优于对比检索，这两个数据集分别是野外视觉属性 (VAW) 和我们新提出的视觉基因组属性排名 (VGARank)。