摘要
大型语言模型 (LLM) 在使用链式思维推理 (CoT) 时擅长处理多跳问题(例如,“Imagine 的演唱者的配偶是谁?”),但在被迫进行内部推理(无 CoT)时却难以应对。先前关于这种差距的规模和性质的研究结果好坏参半,结论不确定。本文引入了一个受控环境来研究 LLM 中的二跳推理,其中高于机会水平的性能构成了潜在推理的无可辩驳的证据。我们对大型语言模型(包括 Llama 3 8B Instruct 和 GPT-4o)进行了微调,使其能够学习虚构事实,并证实它们能够使用 CoT 来概括这些事实并回答有关它们的二跳问题。我们发现,当事实一起出现在训练过程中或提示中时,模型可以进行潜在推理。然而,令我们惊讶的是,当学习到的事实仅出现在不同的文档中时,模型在没有 CoT 的情况下完全无法进行二跳推理,其准确率和测试损失都达到了机会水平。我们将这种完全无法组合单独学习的事实称为“二跳诅咒”。此外,我们对 9 个前沿 LLM 在真实世界的事实上进行了评估,发现模型在超过一半的问题类别中完全无法进行无 CoT 的二跳推理,而在大多数类别中使用 CoT 则保持部分成功。这些结果表明,LLM 缺乏一种独立于问题类型的通用潜在多跳推理能力。