摘要
人类认知表现出系统性的组合性,即从有限的学习组件中生成无限种新组合的代数能力,这是理解和推理复杂逻辑的关键。在本研究中,我们调查了大型语言模型 (LLMs) 在数学推理中的组合性。具体来说,我们通过在 MATH 和 GSM8K 的问题描述中引入精心设计的逻辑陷阱,构建了一个新的数据集 \textsc{MathTrap}。由于逻辑缺陷问题在现实世界中很少见,因此这些问题对 LLMs 来说是“未曾见过”的情况。解决这些问题需要模型系统地组合 (1) 原问题中涉及的数学知识与 (2) 与引入的陷阱相关的知识。我们的实验表明,虽然 LLMs 拥有必要知识的两个组成部分,但它们并不会 **自发地** 将它们结合起来处理这些新情况。我们探索了几种缓解这种缺陷的方法,例如自然语言提示、少样本演示和微调。此外,我们测试了最近发布的 OpenAI o1 模型,发现类似人类的“慢思考”有助于提高 LLMs 的组合性。总的来说,系统性组合性仍然是大型语言模型面临的一个开放性挑战。