LLM2D
大语言模型学会推理了吗?基于3-SAT相变的characterization
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition
作者: Rishi Hazra, Gabriele Venturato, Pedro Zuidberg Dos Martires, Luc De Raedt
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03930v1

摘要

arXiv:2504.03930v1 公告类型: 新颖 摘要: 大型语言模型(LLMs)被宣传为具有高级推理能力的AI模型。理论上,带有思维链(Chain-of-Thought, CoT)的自回归LLMs可以进行更多的串行计算以解决复杂的推理任务。然而,最近的研究表明,尽管具有这种能力,LLMs实际上并未学会推理,而是拟合统计特征。为了以原则化的视角研究推理能力,我们采用计算理论的视角,并提出了一种以3-SAT为核心问题的实验协议——这是典型的NP完全问题,位于逻辑推理和约束满足任务的核心。具体而言,我们研究了随机3-SAT的问题转变,并通过改变问题实例的固有难度来表征最先进的LLMs的推理能力。通过将DeepSeek R1与其他LLMs进行比较,我们的研究揭示了两个关键见解:(1)LLM在更难的问题实例上的准确性显著下降,表明所有当前的模型在没有统计捷径时都面临困难;(2)与其它LLMs不同,R1显示出已经学习到基础推理的迹象。遵循原则化的实验协议,我们的研究超越了LLM推理研究中常见的基于基准的证据。我们的发现揭示了重要的差距,并提出了未来研究的明确方向。