摘要
arXiv:2502.15823v4 Announce Type: replace-cross
摘要:大型语言模型(LLMs)在推理方面表现出显著的改进,现有的许多基准模型,如o1和o3,要么完全要么部分解决了这些问题。然而,这些基准模型大多强调演绎推理,包括数学和编程任务,其中规则如数学公理或编程语法明确界定,基于这些规则,LLMs可以计划并应用这些规则以达到解决方案。相比之下,归纳推理,即从观察到的数据中推断出潜在规则,仍然较少被探索。这样的归纳过程是科学研究的核心,因为它们使研究人员能够从实证观察中提取一般原则。为了评估LLMs是否具备这种能力,我们引入了InductionBench,一个新基准,旨在评估LLMs的归纳推理能力。我们的实验结果表明,即使是最先进的模型也难以掌握函数子正规层次结构中最简单的复杂类,突显了当前LLMs在归纳推理能力方面的显著不足。相关代码和数据可在https://github.com/Wenyueh/inductive_reasoning_benchmark获取。