LLM2D
大型语言模型的推理能力:对抽象与推理语料库的深入分析
Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus
作者: Seungpil Lee, Woochang Sim, Donghyeon Shin, Wongyu Seo, Jiwon Park, Seokki Lee, Sanha Hwang, Sejin Kim, Sundong Kim
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2403.11793v3

摘要

现有评估大型语言模型 (LLM) 推理能力的方法主要以结果为中心,难以全面评估推理过程。我们提出了一种新方法,使用抽象与推理语料库 (ARC) 基准以过程为中心的方式评估 LLMs 的推理和上下文理解能力,重点关注思维语言假说 (LoTH) 的三个关键组成部分:逻辑连贯性、组合性和生产力。我们精心设计的实验表明,虽然 LLMs 表现出一定的推理能力,但在这三个方面仍远落后于人类水平的推理。本文的主要贡献在于引入了 LoTH 的视角,这提供了一种评估推理过程的方法,而传统的结果导向方法无法捕捉到这一点,从而为人工智能系统中人类水平推理的发展提供了新的见解。