LLM2D
利用类别共现概率改进多标签识别
Improving Multi-label Recognition using Class Co-Occurrence Probabilities
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2404.16193v2

摘要

多标签识别(MLR)涉及在图像中识别多个对象。为了解决这一问题的额外复杂性,最近的研究利用了在大规模文本-图像数据集上训练的视觉-语言模型(VLM)的信息。这些方法为每个对象(类别)学习一个独立的分类器,忽略了它们出现之间的相关性。这种共现关系可以从训练数据中作为类别对之间的条件概率来捕捉。我们提出了一种框架,通过结合对象对的共现信息来扩展独立分类器,以提高其性能。我们使用图卷积网络(GCN)来强化类别之间的条件概率,通过细化从VLM获取的图像和文本源得出的初始估计。我们在四个MLR数据集上验证了我们的方法,结果表明我们的方法优于所有最先进的方法。