LLM2D

摘要

链式思维（CoT）提示已被证明可以增强大型语言模型（LLMs）的多步推理能力。然而，关于 LLMs 在给出 CoT 提示时是否表现出抽象泛化或依赖于浅层启发式方法的争论仍在继续。为了理解影响 CoT 推理的因素，我们提供了一个关于解码移位密码的符号推理任务的详细案例研究，其中字母在字母表中向前移动若干步。我们分析了三个 LLMs（GPT-4、Claude 3 和 Llama 3.1）使用 CoT 提示执行此任务时产生的结果模式。通过专注于一个相对简单的任务，我们能够识别出三个系统性地影响 CoT 性能的因素：任务预期输出的概率（概率）、模型在预训练期间隐式学习的内容（记忆）以及推理中涉及的中间操作的数量（噪声推理）。我们表明，这些因素会极大地影响所有三个 LLMs 的任务准确性；例如，当使用 GPT-4 进行测试时，改变输出出现的概率会使准确率从 26% 变化到 70%。总的来说，我们得出结论，CoT 提示的性能反映了记忆和真实推理的概率版本。代码和数据位于此 https://github.com/aksh555/deciphering_cot。