摘要
arXiv:2502.20808v4 通知类型: 替换
摘要:多模态大型语言模型(MLLMs)在各种数据集中的视觉上下文内的数学推理方面展示了令人鼓舞的能力。然而,现有的大多数多模态数学基准仅限于单个视觉上下文,这与真实世界中常见的多视觉场景相偏离。为解决这一差距,我们引入了MV-MATH:一个精心整理的数据集,包含2,009个高质量的数学问题。每个问题都结合了交错的图像和文本,来源于真实的K-12情景,并附有详细的注释。MV-MATH 包括多项选择题、自由作答题和多步题,覆盖了11个学科领域,共3个难度级别, serves作为评估MLLMs在多视觉上下文中的数学推理能力的全面而严格的基准。通过广泛的实验,我们观察到MLLMs在多视觉数学任务中遇到了巨大的挑战,与人类在MV-MATH上的能力相比,性能差距显著。此外,我们分析了各种模型的性能和错误模式,提供了关于MLLMs在多视觉设置下数学推理能力的见解。