摘要
人类认知表现出系统的组合性,即从有限的学习成分中生成无限的新组合的代数能力,这是理解和推理复杂逻辑的关键。在这项工作中,我们研究了大型语言模型 (LLM) 在数学推理中的组合性。具体来说,我们通过在 MATH 和 GSM8k 的问题描述中引入精心设计的逻辑陷阱,构建了一个新的数据集 \textsc{MathTrap}\footnotemark[3]。由于现实世界中存在逻辑缺陷的问题非常罕见,因此这些问题代表了 LLM 的“未见”情况。解决这些问题需要模型系统地组合 (1) 原始问题中涉及的数学知识与 (2) 与引入的陷阱相关的知识。我们的实验表明,虽然 LLM 同时具备必要知识的两个组成部分,但它们不会 \textbf{自发地} 将它们组合起来处理这些新情况。我们探索了多种方法来缓解这种缺陷,例如自然语言提示、少样本演示和微调。我们发现,LLM 的性能可以通过上述外部干预 \textbf{被动地} 提高。总的来说,系统的组合性仍然是大型语言模型面临的一个开放性挑战。