LLM2D

摘要

arXiv:2502.09621v1 类别: cross 摘要: 使用链式思维（CoT）回答问题显著增强了大型语言模型（LLMs）的推理能力，但其对大型多模态模型（LMMs）的影响仍缺乏系统的评估和深入的研究。在本文中，我们引入了MME-CoT，这是一个专门的基准测试，评估LMMs的CoT推理性能，涵盖了六个领域：数学、科学、光学字符识别（OCR）、逻辑、时空和一般场景。作为该领域首个全面的研究，我们提出了一套全面的评估套件，其中包括三个新颖的指标，以在细腻的层面上评估推理质量、鲁棒性和效率。利用精心挑选的高质量数据和独特的评估策略，我们对最先进的LMMs进行了深入分析，揭示了一些关键见解：1）具有反思机制的模型展示了更优质的CoT质量，其中Kimi k1.5的表现优于GPT-4o，显示出最高质量的结果；2）CoT提示往往降低LMM在感知密集型任务中的性能，表明可能存在潜在有害的过度思考行为；3）尽管CoT质量很高，具有反思机制的LMM们在常规响应和自我纠正阶段都表现出显著的低效性。我们希望MME-CoT能成为推动LMMs多模态推理发展的基础。项目主页: https://mmecot.github.io/