LLM2D

摘要

越来越多的研究关注追踪通用智能基础模型的能力。本研究以人类在韦氏成人智力量表 (WAIS-IV) 上的表现为基准，对领先的大型语言模型和视觉语言模型进行了评估。WAIS-IV 是一种全面、人口规范化的评估，用于评估人类认知和智力能力的基础，重点关注言语理解 (VCI)、工作记忆 (WMI) 和知觉推理 (PRI) 领域。大多数模型在存储、检索和操作诸如任意字母和数字序列等标记方面展现出非凡的能力，与人类人口规范能力相比，工作记忆指数 (WMI) 的表现高于或等于 99.5%。言语理解指数 (VCI) 衡量对获取信息的检索以及对单词含义及其相互关系的语言理解，也表现出始终如一地达到或超过 98% 的表现。尽管这些模型具有广泛优势，但我们观察到多模态模型在知觉推理指数 (PRI; 范围 0.1-10% 百分位数) 上始终表现不佳，表明其在解释和推理视觉信息方面存在严重缺陷。更小、更旧的模型版本始终表现更差，表明训练数据、参数数量和微调方面的进步正在导致认知能力的显著提高。