LLM2D

摘要

多标签识别（MLR）涉及在图像中识别多个对象。为了解决这一问题的额外复杂性，最近的研究利用了在大规模文本-图像数据集上训练的视觉-语言模型（VLM）的信息。这些方法为每个对象（类别）学习一个独立的分类器，忽略了它们出现之间的相关性。这种共现关系可以从训练数据中作为类别对之间的条件概率来捕捉。我们提出了一种框架，通过结合对象对的共现信息来扩展独立分类器，以提高其性能。我们使用图卷积网络（GCN）来强化类别之间的条件概率，通过细化从VLM获取的图像和文本源得出的初始估计。我们在四个MLR数据集上验证了我们的方法，结果表明我们的方法优于所有最先进的方法。