摘要
arXiv:2501.14851v2 通告类型:替换-交叉
摘要:逻辑推理是大型语言模型(LLMs)的关键组成部分,近年来的研究旨在增强其演绎推理能力。然而,由于现有的演绎推理基准数据包缺乏任务复杂性、存在先验知识的干扰以及表面化的错误分析,这些基准数据对评估和推进LLMs是不足的。为了解决这些缺陷,我们提出了JustLogic,这是一个用于 rigorously 评估LLMs的合成生成的演绎推理基准数据集。JustLogic具有以下特点:(i) 高度复杂,能够生成多样化的语言模式、词汇和论证结构;(ii) 与先验知识无关,消除了模型具有先验知识的优势,确保只有通过演绎推理来回答问题;(iii) 能够对推理深度和论证形式的异质效应对模型准确性进行深入分析。我们的JustLogic实验结果显示:(i) 当前最先进的(SOTA)推理型LLMs的表现与人类平均水平相当或更好,但在人类天花板之下表现较差;(ii) 当前最先进的非推理模型的表现仍然低于人类平均水平。所有代码和数据可在 https://github.com/michaelchen-lab/JustLogic 获得。