LLM2D

摘要

现有评估大型语言模型 (LLM) 推理能力的方法主要以结果为中心，难以全面评估推理过程。我们提出了一种新方法，使用抽象与推理语料库 (ARC) 基准以过程为中心的方式评估 LLMs 的推理和上下文理解能力，重点关注思维语言假说 (LoTH) 的三个关键组成部分：逻辑连贯性、组合性和生产力。我们精心设计的实验表明，虽然 LLMs 表现出一定的推理能力，但在这三个方面仍远落后于人类水平的推理。本文的主要贡献在于引入了 LoTH 的视角，这提供了一种评估推理过程的方法，而传统的结果导向方法无法捕捉到这一点，从而为人工智能系统中人类水平推理的发展提供了新的见解。