LLM2D

摘要

arXiv:2504.05782v1 多模态推理类型: 交叉摘要：多模态推理，即将语言和视觉线索整合到问题解决和决策过程中，是人类智能的基本方面，也是通往人工通用智能的关键步骤。然而，对多模态大型语言模型（MLLMs）的多模态推理能力的评估仍然不够充分。大多数现有的推理基准受到数据量有限、领域覆盖狭窄和知识分布不规范的限制。为了弥补这些不足，我们引入了MDK12-Bench，这是一个多学科基准，通过现实世界的小学至十二年级考试来评估MLLMs的推理能力。该基准涵盖了六大学科（数学、物理、化学、生物学、地理和信息科学），包括从小学到十二年级不同难度级别的共计140,000个推理实例。它基于组织良好的知识结构，标注了6,827个实例级别的知识点，提供详细的答案解释、难度标签和跨年份划分，为全面评估提供了坚固的平台。此外，我们提出了一个新颖的动态评估框架，通过在评估过程中逐步调整问题形式、问题类型和图像风格来减少数据污染问题。在MDK12-Bench上的大量实验揭示了当前MLLMs在多模态推理方面的显著局限性。我们基准上的发现为下一代模型的发展提供了见解。我们的数据和代码可从https://github.com/LanceZPF/MDK12获得。