摘要
视觉总是意味着理解吗?大型视觉语言模型 (LVLMs) 集成了分别预训练的视觉和语言组件,通常使用 CLIP-ViT 作为视觉主干。然而,这些模型经常遇到视觉编码器 (VE) 和大型语言模型 (LLM) 之间“认知错位”的核心问题。具体来说,VE 对视觉信息的表示可能无法完全与 LLM 的认知框架对齐,导致视觉特征超出语言模型解释范围的错配。为了解决这个问题,我们研究了 VE 表示的变化如何影响 LVLM 的理解,尤其是在 LLM 面对 VE 未知数据——其模糊的视觉表示挑战了 VE 的解释精度——图像时。相应地,我们构建了一个多粒度地标数据集,并系统地检查了 VE 已知数据和 VE 未知数据对解释能力的影响。我们的结果表明,VE 未知数据限制了 LVLM 准确理解的能力,而富含独特特征的 VE 已知数据有助于减少认知错位。基于这些见解,我们提出了实体增强认知对齐 (EECA) 方法,该方法采用多粒度监督生成视觉丰富的、良好对齐的标记,这些标记不仅集成在 LLM 的嵌入空间中,而且与 LLM 的认知框架对齐。这种对齐显着增强了 LVLM 在地标识别中的性能。我们的研究结果强调了 VE 未知数据带来的挑战,并突出了认知对齐在推进多模态系统中的重要作用。