LLM2D
MDK12-Bench:评估多模态大语言模型推理能力的多学科基准
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
作者: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05782v1

摘要

arXiv:2504.05782v1 多模态推理类型: 交叉 摘要:多模态推理,即将语言和视觉线索整合到问题解决和决策过程中,是人类智能的基本方面,也是通往人工通用智能的关键步骤。然而,对多模态大型语言模型(MLLMs)的多模态推理能力的评估仍然不够充分。大多数现有的推理基准受到数据量有限、领域覆盖狭窄和知识分布不规范的限制。为了弥补这些不足,我们引入了MDK12-Bench,这是一个多学科基准,通过现实世界的小学至十二年级考试来评估MLLMs的推理能力。该基准涵盖了六大学科(数学、物理、化学、生物学、地理和信息科学),包括从小学到十二年级不同难度级别的共计140,000个推理实例。它基于组织良好的知识结构,标注了6,827个实例级别的知识点,提供详细的答案解释、难度标签和跨年份划分,为全面评估提供了坚固的平台。此外,我们提出了一个新颖的动态评估框架,通过在评估过程中逐步调整问题形式、问题类型和图像风格来减少数据污染问题。在MDK12-Bench上的大量实验揭示了当前MLLMs在多模态推理方面的显著局限性。我们基准上的发现为下一代模型的发展提供了见解。我们的数据和代码可从https://github.com/LanceZPF/MDK12获得。