摘要
arXiv:2501.15140v2 通知类型: replace-cross
摘要:多模态大型语言模型(MLLMs)在各种视觉理解任务中展示了令人瞩目的能力。然而,MLLMs 在细粒度视觉识别(FGVR)方面仍然存在困难,FGVR 的目标是从图像中识别从属类别的分类。这可能会负面影响 MLLMs 的更高级能力,例如基于对象的视觉问题回答和推理。在我们的研究中,我们重新审视了 MLLMs 的三项基本能力,用于 FGVR,包括对象信息提取、类别知识储备、对象-类别对齐,以及将这些偏差问题定位为核心问题所在。为了解决这一问题,我们提出了 Finedefics,这是一种通过在训练阶段融入具有信息属性描述的对象来增强模型的 FGVR 能力的 MLLM。我们同时在对象-属性对和属性-类别对上使用对比学习,并使用类似但不正确的类别的例子作为硬否定样本,自然地使视觉对象的表示和类别名称更加接近。在多个流行的 FGVR 数据集上的广泛评估显示,Finedefics 在与现有相似参数量的 MLLMs 的表现上更出色,展示了其显著的效果。代码可在 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 获取。