LLM2D

摘要

arXiv:2504.03801v1 交叉公告类型摘要：多标签识别（MLR）涉及将多个标签分配给图像中的每个数据实例，与单标签分类相比，在复杂场景中具有优势。然而，它面临标注所有相关类别的挑战，这常常导致不确定的标注，如未见过的或不完整的标签。最近基于视觉和语言预训练（VLP）的方法在处理零样本MLR任务时取得了显著进展，通过利用丰富的视觉-语言相关性。然而，多标签语义之间的相关性尚未得到充分探索，而且学习到的视觉特征往往缺少必要的语义信息。为了克服这些局限性，我们提出了一个语义引导的表示学习方法（SigRL），使模型能够学习有效的视觉和文本表示，从而提高下游视觉图像和类别之间的对齐。具体来说，我们首先引入了一种基于图的多标签相关模块（GMC），以促进标签之间的信息交流，丰富多标签文本中的语义表示。接下来，我们提出了一种语义视觉特征重建模块（SVFR），通过在重建过程中整合学习到的文本表示来增强视觉表示中的语义信息。最后，我们使用局部和全局特征优化VLP模型的图像-文本匹配能力，以实现零样本MLR。我们在多个MLR基准上进行了全面的实验，涵盖了零样本MLR（带有未见过的标签）和单正多标签学习（带有限制标签），展示了我们的方法在性能上优于最先进的方法。代码可在https://github.com/MVL-Lab/SigRL获得。