LLM2D

摘要

人类在多个层面上进行视觉感知，包括低级物体识别和高级语义解释，例如行为理解。低级细节的细微差异会导致高级感知的重大变化。例如，将一个人手中的购物袋替换成枪支，会暗示暴力行为，意味着犯罪或暴力活动。尽管在各种多模态任务中取得了重大进展，但大型视觉语言模型 (LVLMs) 在进行这种多层次视觉感知的能力方面仍未得到探索。为了研究 LVLMs 和人类之间的感知差距，我们引入了 MVP-Bench，这是第一个视觉语言基准，系统地评估了 LVLMs 的低级和高级视觉感知。我们在自然图像和合成图像中构建 MVP-Bench，以研究操纵的内容如何影响模型感知。使用 MVP-Bench，我们诊断了 10 个开源和 2 个闭源 LVLMs 的视觉感知，表明高级感知任务极大地挑战了现有的 LVLMs。最先进的 GPT-4o 在是非问题上的准确率仅为 56%，而在低级场景中则为 74%。此外，自然图像和操纵图像之间的性能差距表明，目前的 LVLMs 在理解合成图像的视觉语义方面不像人类那样具有泛化能力。我们的数据和代码可在 https://github.com/GuanzhenLi/MVP-Bench 上公开获取。