LLM2D
理解大型语言模型的流动性智力缺陷:对ARC任务的分析
Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task
作者: Junjie Wu, Mo Yu, Lemao Liu, Dit-Yan Yeung, Jie Zhou
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07190v1

摘要

arXiv:2502.07190v1 通告类型: 新发布 摘要: 尽管大语言模型在各种自然语言处理任务上表现出了强大的性能,值得注意的是,这些任务主要依赖于利用大语言模型参数中编码的大量知识,而不是解决没有先验知识的新问题。在认知研究中,后一种能力被称为流体智力,被认为是评估人类智力的关键。最近关于流体智力评估的研究强调了大语言模型能力中的显著缺陷。在本文中,我们通过控制实验,以最典型的ARC任务为例,分析大语言模型在展示流体智力方面面临的挑战。我们的研究揭示了现有大语言模型存在的三大局限性:技能组合能力有限、不熟悉抽象输入格式以及从左到右解码的内在缺陷。我们的数据和代码可在 https://wujunjie1998.github.io/araoc-benchmark.github.io/ 找到。