摘要
视觉语言模型 (VLMs) 最近在理解复杂的视觉内容方面展现出非凡的能力。然而,VLMs 处理视觉信息背后的机制在很大程度上仍未被探索。本文进行了彻底的实证分析,重点关注跨层注意力模块。我们揭示了这些模型如何处理视觉数据的几个关键见解:(i) 查询标记的内部表示(例如,“描述图像”的表示)被 VLMs 用于存储全局图像信息;我们证明了这些模型仅从这些标记生成出令人惊讶的描述性响应,无需直接访问图像标记。(ii) 跨模态信息流主要受中间层(大约所有层的 25%)的影响,而早期和后期层的影响微乎其微。(iii) 细粒度的视觉属性和物体细节以空间局部化的方式直接从图像标记中提取,即,与特定物体或属性相关的生成的标记强烈地关注图像中相应的区域。我们提出了新颖的定量评估方法来验证我们的观察结果,利用现实世界中复杂的视觉场景。最后,我们证明了我们的发现有助于提高最先进 VLMs 中视觉处理效率的潜力。