LLM2D

摘要

尽管大型语言模型（LLM）取得了进展，但它们如何利用其知识进行推理仍不清楚。在本研究中，我们提出了一种方法，将复杂的现实世界问题分解成一个图，将每个问题表示为一个节点，该节点具有解决问题所需的背景知识的前驱。我们开发了 DepthQA 数据集，将问题分解为三个深度：（i）回忆概念知识，（ii）应用程序知识，以及（iii）分析策略知识。基于分层图，我们量化了前向差异，即 LLM 在更简单子问题上的性能与复杂问题上的性能之间的差异。我们还衡量了后向差异，即 LLM 回答复杂问题，但难以回答更简单的问题。我们的分析表明，较小的模型比较大的模型表现出更多的差异。在模型容量和训练数据记忆的可能性方面，观察到不同的差异模式。此外，通过多轮交互引导模型从简单问题到复杂问题，可以提高各种规模模型的性能，突出了知识推理中结构化中间步骤的重要性。这项工作增强了我们对 LLM 推理的理解，并提出了提高其解决问题能力的方法。