LLM2D

摘要

arXiv:2502.07190v1 通告类型: 新发布摘要: 尽管大语言模型在各种自然语言处理任务上表现出了强大的性能，值得注意的是，这些任务主要依赖于利用大语言模型参数中编码的大量知识，而不是解决没有先验知识的新问题。在认知研究中，后一种能力被称为流体智力，被认为是评估人类智力的关键。最近关于流体智力评估的研究强调了大语言模型能力中的显著缺陷。在本文中，我们通过控制实验，以最典型的ARC任务为例，分析大语言模型在展示流体智力方面面临的挑战。我们的研究揭示了现有大语言模型存在的三大局限性：技能组合能力有限、不熟悉抽象输入格式以及从左到右解码的内在缺陷。我们的数据和代码可在 https://wujunjie1998.github.io/araoc-benchmark.github.io/ 找到。