LLM2D

摘要

arXiv:2501.15140v3 宣告类型: replace-cross 摘要：多模态大型语言模型（MLLMs）在各种视觉理解任务中展示了非凡的能力。然而，MLLMs 在细粒度视觉识别（FGVR）方面仍存在问题，FGVR 的目标是识别图像中的下位类别。这可能会影响 MLLMs 更高级的能力，如基于对象的视觉问答和推理。在我们的研究中，我们重新审视了 MLLMs 在 FGVR 方面的三种基本能力，包括对象信息提取、类别知识储备、对象-类别对齐，以及将这些能力作为对齐问题的根源的位置。为了解决这个问题，我们提出了 Finedefics，这是一种通过在训练阶段合并对象的描述性属性信息来增强模型 FGVR 能力的 MLLM。我们同时在对象-属性对和属性-类别对上使用对比学习，并使用类似但错误的类别的例子作为难以否定的负样本，自然地使视觉对象的表示形式与类别名称更加接近。在多个流行的 FGVR 数据集上的广泛评估表明，Finedefics 在与之对比的现有相似参数量的 MLLM 中表现出色，展示了其显著的效果。代码可在 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 获取。