LLM2D

摘要

arXiv:2502.00698v1 宣告类型: new 摘要：智商测试一直是一种基础的评估方法，用于评估人类的认知能力，故意将评估与语言背景、语言熟练程度或领域特定知识脱钩，以隔离抽象和推理的核心能力。然而，目前的人工智能研究缺乏系统性基准，以量化多模态系统中的这些关键认知维度。为了解决这一关键缺口，我们提出了MM-IQ，这是一个全面的评估框架，包含2,710个精心筛选的测试项，涵盖了8种不同的推理范式。通过系统性评估领先开源和专有多模态模型，我们的基准揭示了显著的局限性：即使最先进的架构也只能略微优于随机猜测的表现（27.49% 的准确率 vs. 25% 的基线准确率）。这种显著的性能差距揭示了当前多模态系统在近似基本的人类推理能力方面存在的不足，突显了需要范式转变的进步来弥补这一认知鸿沟。