LLM2D
视觉语言模型的视觉能力评估:指导与检查
VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14759v1

摘要

视觉语言模型(VLMs)在各种基准测试中展示了令人鼓舞的推理能力;然而,我们对它们视觉感知的理解仍然有限。在这项工作中,我们提出了一种眼科检查流程,以研究VLM如何感知图像,特别是关注视觉识别的关键元素,从基本的颜色和形状到语义层面。为此,我们引入了一个名为LENS的数据集,以指导VLM遵循检查流程并检查其准备情况。一旦模型准备就绪,我们进行检查。通过这一检查,我们量化并可视化了VLM对颜色和形状以及语义匹配的敏感性。我们的研究结果表明,VLM对不同颜色的敏感性各异,而在不同VLM中对绿色的敏感性始终较低。此外,我们发现尽管使用相同的固定视觉编码器,但形状敏感性和语义识别因LLM的容量而异。我们的分析和发现有望激发VLM设计和视觉输入预处理的创新,以提高应用性能。