LLM2D

摘要

视觉语言模型（VLMs）在各种基准测试中展示了令人鼓舞的推理能力；然而，我们对它们视觉感知的理解仍然有限。在这项工作中，我们提出了一种眼科检查流程，以研究VLM如何感知图像，特别是关注视觉识别的关键元素，从基本的颜色和形状到语义层面。为此，我们引入了一个名为LENS的数据集，以指导VLM遵循检查流程并检查其准备情况。一旦模型准备就绪，我们进行检查。通过这一检查，我们量化并可视化了VLM对颜色和形状以及语义匹配的敏感性。我们的研究结果表明，VLM对不同颜色的敏感性各异，而在不同VLM中对绿色的敏感性始终较低。此外，我们发现尽管使用相同的固定视觉编码器，但形状敏感性和语义识别因LLM的容量而异。我们的分析和发现有望激发VLM设计和视觉输入预处理的创新，以提高应用性能。