LLM2D
大规模视觉-语言模型的图像推理与描述认知评估基准
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models
作者: Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2402.18409v4

摘要

arXiv:2402.18409v4 通告类型: 替换 摘要: 尽管大型视觉-语言模型(LVLMs)近期取得了成功,但它们的认知能力几乎未被全面测试。受人类认知测试中广泛使用的Cookie Theft任务启发,我们提出了一种新的评估基准,用于通过富含语义的图像来评估LVLMs的高阶认知能力。该基准包括251张图像及其全面注释,定义了八种推理能力,并包含图像描述任务和视觉问答任务。对知名LVLMs的评估结果显示,LVLMs在认知能力方面与人类之间仍然存在显著差距。