LLM2D

摘要

arXiv:2402.18409v4 通告类型: 替换摘要: 尽管大型视觉-语言模型（LVLMs）近期取得了成功，但它们的认知能力几乎未被全面测试。受人类认知测试中广泛使用的Cookie Theft任务启发，我们提出了一种新的评估基准，用于通过富含语义的图像来评估LVLMs的高阶认知能力。该基准包括251张图像及其全面注释，定义了八种推理能力，并包含图像描述任务和视觉问答任务。对知名LVLMs的评估结果显示，LVLMs在认知能力方面与人类之间仍然存在显著差距。