LLM2D

摘要

人类认知表现出系统性的组合性，即从有限的学习组件中生成无限种新组合的代数能力，这是理解和推理复杂逻辑的关键。在本研究中，我们调查了大型语言模型 (LLMs) 在数学推理中的组合性。具体来说，我们通过在 MATH 和 GSM8K 的问题描述中引入精心设计的逻辑陷阱，构建了一个新的数据集 \textsc{MathTrap}。由于逻辑缺陷问题在现实世界中很少见，因此这些问题对 LLMs 来说是“未曾见过”的情况。解决这些问题需要模型系统地组合 (1) 原问题中涉及的数学知识与 (2) 与引入的陷阱相关的知识。我们的实验表明，虽然 LLMs 拥有必要知识的两个组成部分，但它们并不会 **自发地** 将它们结合起来处理这些新情况。我们探索了几种缓解这种缺陷的方法，例如自然语言提示、少样本演示和微调。此外，我们测试了最近发布的 OpenAI o1 模型，发现类似人类的“慢思考”有助于提高 LLMs 的组合性。总的来说，系统性组合性仍然是大型语言模型面临的一个开放性挑战。