摘要
arXiv:2502.07190v1 通告类型: 新发布
摘要: 尽管大语言模型在各种自然语言处理任务上表现出了强大的性能,值得注意的是,这些任务主要依赖于利用大语言模型参数中编码的大量知识,而不是解决没有先验知识的新问题。在认知研究中,后一种能力被称为流体智力,被认为是评估人类智力的关键。最近关于流体智力评估的研究强调了大语言模型能力中的显著缺陷。在本文中,我们通过控制实验,以最典型的ARC任务为例,分析大语言模型在展示流体智力方面面临的挑战。我们的研究揭示了现有大语言模型存在的三大局限性:技能组合能力有限、不熟悉抽象输入格式以及从左到右解码的内在缺陷。我们的数据和代码可在 https://wujunjie1998.github.io/araoc-benchmark.github.io/ 找到。