LLM2D

摘要

大型语言模型 (LLM) 在使用链式思维推理 (CoT) 时擅长处理多跳问题（例如，“Imagine 的演唱者的配偶是谁？”），但在被迫进行内部推理（无 CoT）时却难以应对。先前关于这种差距的规模和性质的研究结果好坏参半，结论不确定。本文引入了一个受控环境来研究 LLM 中的二跳推理，其中高于机会水平的性能构成了潜在推理的无可辩驳的证据。我们对大型语言模型（包括 Llama 3 8B Instruct 和 GPT-4o）进行了微调，使其能够学习虚构事实，并证实它们能够使用 CoT 来概括这些事实并回答有关它们的二跳问题。我们发现，当事实一起出现在训练过程中或提示中时，模型可以进行潜在推理。然而，令我们惊讶的是，当学习到的事实仅出现在不同的文档中时，模型在没有 CoT 的情况下完全无法进行二跳推理，其准确率和测试损失都达到了机会水平。我们将这种完全无法组合单独学习的事实称为“二跳诅咒”。此外，我们对 9 个前沿 LLM 在真实世界的事实上进行了评估，发现模型在超过一半的问题类别中完全无法进行无 CoT 的二跳推理，而在大多数类别中使用 CoT 则保持部分成功。这些结果表明，LLM 缺乏一种独立于问题类型的通用潜在多跳推理能力。