LLM2D
生成式 AI 的认知能力:与人类基准的比较分析
The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks
作者: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07391v1

摘要

越来越多的研究关注追踪通用智能基础模型的能力。本研究以人类在韦氏成人智力量表 (WAIS-IV) 上的表现为基准,对领先的大型语言模型和视觉语言模型进行了评估。WAIS-IV 是一种全面、人口规范化的评估,用于评估人类认知和智力能力的基础,重点关注言语理解 (VCI)、工作记忆 (WMI) 和知觉推理 (PRI) 领域。大多数模型在存储、检索和操作诸如任意字母和数字序列等标记方面展现出非凡的能力,与人类人口规范能力相比,工作记忆指数 (WMI) 的表现高于或等于 99.5%。言语理解指数 (VCI) 衡量对获取信息的检索以及对单词含义及其相互关系的语言理解,也表现出始终如一地达到或超过 98% 的表现。尽管这些模型具有广泛优势,但我们观察到多模态模型在知觉推理指数 (PRI; 范围 0.1-10% 百分位数) 上始终表现不佳,表明其在解释和推理视觉信息方面存在严重缺陷。更小、更旧的模型版本始终表现更差,表明训练数据、参数数量和微调方面的进步正在导致认知能力的显著提高。