LLM2D

摘要

arXiv:2501.14851v2 通告类型：替换-交叉摘要：逻辑推理是大型语言模型（LLMs）的关键组成部分，近年来的研究旨在增强其演绎推理能力。然而，由于现有的演绎推理基准数据包缺乏任务复杂性、存在先验知识的干扰以及表面化的错误分析，这些基准数据对评估和推进LLMs是不足的。为了解决这些缺陷，我们提出了JustLogic，这是一个用于 rigorously 评估LLMs的合成生成的演绎推理基准数据集。JustLogic具有以下特点：(i) 高度复杂，能够生成多样化的语言模式、词汇和论证结构；(ii) 与先验知识无关，消除了模型具有先验知识的优势，确保只有通过演绎推理来回答问题；(iii) 能够对推理深度和论证形式的异质效应对模型准确性进行深入分析。我们的JustLogic实验结果显示：(i) 当前最先进的（SOTA）推理型LLMs的表现与人类平均水平相当或更好，但在人类天花板之下表现较差；(ii) 当前最先进的非推理模型的表现仍然低于人类平均水平。所有代码和数据可在 https://github.com/michaelchen-lab/JustLogic 获得。