LLM2D
分析并增强细粒度视觉识别在多模大型语言模型中的能力
Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
作者: Hulingxiao He, Geng Li, Zijun Geng, Jinglin Xu, Yuxin Peng
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2501.15140v3

摘要

arXiv:2501.15140v3 宣告类型: replace-cross 摘要:多模态大型语言模型(MLLMs)在各种视觉理解任务中展示了非凡的能力。然而,MLLMs 在细粒度视觉识别(FGVR)方面仍存在问题,FGVR 的目标是识别图像中的下位类别。这可能会影响 MLLMs 更高级的能力,如基于对象的视觉问答和推理。在我们的研究中,我们重新审视了 MLLMs 在 FGVR 方面的三种基本能力,包括对象信息提取、类别知识储备、对象-类别对齐,以及将这些能力作为对齐问题的根源的位置。为了解决这个问题,我们提出了 Finedefics,这是一种通过在训练阶段合并对象的描述性属性信息来增强模型 FGVR 能力的 MLLM。我们同时在对象-属性对和属性-类别对上使用对比学习,并使用类似但错误的类别的例子作为难以否定的负样本,自然地使视觉对象的表示形式与类别名称更加接近。在多个流行的 FGVR 数据集上的广泛评估表明,Finedefics 在与之对比的现有相似参数量的 MLLM 中表现出色,展示了其显著的效果。代码可在 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 获取。