摘要
arXiv:2504.05782v1 多模态推理类型: 交叉
摘要:多模态推理,即将语言和视觉线索整合到问题解决和决策过程中,是人类智能的基本方面,也是通往人工通用智能的关键步骤。然而,对多模态大型语言模型(MLLMs)的多模态推理能力的评估仍然不够充分。大多数现有的推理基准受到数据量有限、领域覆盖狭窄和知识分布不规范的限制。为了弥补这些不足,我们引入了MDK12-Bench,这是一个多学科基准,通过现实世界的小学至十二年级考试来评估MLLMs的推理能力。该基准涵盖了六大学科(数学、物理、化学、生物学、地理和信息科学),包括从小学到十二年级不同难度级别的共计140,000个推理实例。它基于组织良好的知识结构,标注了6,827个实例级别的知识点,提供详细的答案解释、难度标签和跨年份划分,为全面评估提供了坚固的平台。此外,我们提出了一个新颖的动态评估框架,通过在评估过程中逐步调整问题形式、问题类型和图像风格来减少数据污染问题。在MDK12-Bench上的大量实验揭示了当前MLLMs在多模态推理方面的显著局限性。我们基准上的发现为下一代模型的发展提供了见解。我们的数据和代码可从https://github.com/LanceZPF/MDK12获得。