LLM2D

摘要

开放词汇目标检测 (OVD) 模型因其广泛的训练数据和大量参数而被认为是大型多模态模型 (LMM)。主流 OVD 模型优先考虑对象的粗粒度类别，而不是关注其细粒度属性，例如颜色或材质，因此无法识别具有特定属性的物体。然而，OVD 模型是在包含丰富属性词的大规模图像-文本对上进行预训练的，其潜在特征空间可以将全局文本特征表示为细粒度属性标记的线性组合，而不会突出显示它们。因此，本文提出了一种针对冻结的主流 OVD 模型的通用且明确的方法，通过在显式线性空间中突出显示细粒度属性来提高其属性级检测能力。首先，利用 LLM 将输入文本中的属性词作为零样本提示任务突出显示。其次，通过战略性地调整标记掩码，OVD 模型的文本编码器提取全局文本和属性特定特征，然后在线性空间中显式地将它们组合成两个向量，以形成用于检测任务的新属性突出特征，其中相应的标量是手工制作或学习的，以重新加权这两个向量。值得注意的是，这些标量可以在不同的 OVD 模型之间无缝转移，这证明这种显式线性组合是通用的。在 FG-OVD 数据集上的实证评估表明，我们提出的方法统一地提高了各种主流模型的细粒度属性级 OVD，并取得了新的最先进的性能。