LLM2D
MVP-Bench:大型视觉语言模型能像人类一样进行多层次视觉感知吗?
MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans?
作者: Guanzhen Li, Yuxi Xie, Min-Yen Kan
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04345v1

摘要

人类在多个层面上进行视觉感知,包括低级物体识别和高级语义解释,例如行为理解。低级细节的细微差异会导致高级感知的重大变化。例如,将一个人手中的购物袋替换成枪支,会暗示暴力行为,意味着犯罪或暴力活动。尽管在各种多模态任务中取得了重大进展,但大型视觉语言模型 (LVLMs) 在进行这种多层次视觉感知的能力方面仍未得到探索。 为了研究 LVLMs 和人类之间的感知差距,我们引入了 MVP-Bench,这是第一个视觉语言基准,系统地评估了 LVLMs 的低级和高级视觉感知。我们在自然图像和合成图像中构建 MVP-Bench,以研究操纵的内容如何影响模型感知。使用 MVP-Bench,我们诊断了 10 个开源和 2 个闭源 LVLMs 的视觉感知,表明高级感知任务极大地挑战了现有的 LVLMs。最先进的 GPT-4o 在是非问题上的准确率仅为 56%,而在低级场景中则为 74%。此外,自然图像和操纵图像之间的性能差距表明,目前的 LVLMs 在理解合成图像的视觉语义方面不像人类那样具有泛化能力。我们的数据和代码可在 https://github.com/GuanzhenLi/MVP-Bench 上公开获取。