摘要
arXiv:2503.23487v1 宣布类型: 新
摘要: 大型语言模型(LLMs)已被发现难以进行系统性推理。即使在他们看起来表现良好的任务上,他们的表现往往依赖于捷径,而不是真正的推理能力,导致他们在分布外的例子上崩溃。基于强化学习和链式思考提示的后训练策略最近被认为是一个质的飞跃。然而,关于这些所谓的“大型推理模型”(LRMs)在数学和编程问题解决之外的能力,仍知之甚少,特别是在找到真正分布外问题较为困难的情况下。在这篇论文中,我们专注于需要关于关系组合进行系统性推理的任务,特别是在定性空间和时间推理方面。这些任务允许我们控制问题实例的难度,并精确测量模型在多大程度上能够泛化。我们发现,所考虑的LLMs和LRMs整体表现较差,尽管比随机猜测要好一些。