LLM2D

摘要

arXiv:2504.03930v1 公告类型: 新颖摘要: 大型语言模型（LLMs）被宣传为具有高级推理能力的AI模型。理论上，带有思维链（Chain-of-Thought, CoT）的自回归LLMs可以进行更多的串行计算以解决复杂的推理任务。然而，最近的研究表明，尽管具有这种能力，LLMs实际上并未学会推理，而是拟合统计特征。为了以原则化的视角研究推理能力，我们采用计算理论的视角，并提出了一种以3-SAT为核心问题的实验协议——这是典型的NP完全问题，位于逻辑推理和约束满足任务的核心。具体而言，我们研究了随机3-SAT的问题转变，并通过改变问题实例的固有难度来表征最先进的LLMs的推理能力。通过将DeepSeek R1与其他LLMs进行比较，我们的研究揭示了两个关键见解：（1）LLM在更难的问题实例上的准确性显著下降，表明所有当前的模型在没有统计捷径时都面临困难；（2）与其它LLMs不同，R1显示出已经学习到基础推理的迹象。遵循原则化的实验协议，我们的研究超越了LLM推理研究中常见的基于基准的证据。我们的发现揭示了重要的差距，并提出了未来研究的明确方向。