LLM2D
MME-CoT: 多模态模型中思维链在推理质量、稳健性和效率方面的基准测试
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
作者: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09621v1

摘要

arXiv:2502.09621v1 类别: cross 摘要: 使用链式思维(CoT)回答问题显著增强了大型语言模型(LLMs)的推理能力,但其对大型多模态模型(LMMs)的影响仍缺乏系统的评估和深入的研究。在本文中,我们引入了MME-CoT,这是一个专门的基准测试,评估LMMs的CoT推理性能,涵盖了六个领域:数学、科学、光学字符识别(OCR)、逻辑、时空和一般场景。作为该领域首个全面的研究,我们提出了一套全面的评估套件,其中包括三个新颖的指标,以在细腻的层面上评估推理质量、鲁棒性和效率。利用精心挑选的高质量数据和独特的评估策略,我们对最先进的LMMs进行了深入分析,揭示了一些关键见解:1)具有反思机制的模型展示了更优质的CoT质量,其中Kimi k1.5的表现优于GPT-4o,显示出最高质量的结果;2)CoT提示往往降低LMM在感知密集型任务中的性能,表明可能存在潜在有害的过度思考行为;3)尽管CoT质量很高,具有反思机制的LMM们在常规响应和自我纠正阶段都表现出显著的低效性。我们希望MME-CoT能成为推动LMMs多模态推理发展的基础。项目主页: https://mmecot.github.io/