摘要
链式思维(CoT)是一种很有前景的技术,可以从大型语言模型(LLM)中引出推理能力。然而,它并不总是能提高任务性能或准确地代表推理过程,这使得围绕其使用的一些问题尚未解决。在本文中,我们通过将 LLMs 的推理过程与人类进行比较,使用因果分析来理解 LLMs 和人类中问题指令、推理和答案之间的关系,从而诊断其潜在机制。我们的实证研究表明,LLMs 经常偏离因果链,导致虚假相关性和潜在的一致性错误(不一致的推理和答案)。我们还考察了影响因果结构的各种因素,发现使用示例进行的上下文学习会加强因果结构,而监督微调和基于人类反馈的强化学习等训练后技术会削弱因果结构。令我们惊讶的是,因果结构无法通过扩大模型规模来加强,这促使人们研究新的技术。我们希望这项初步研究能够为理解和进一步改进 LLMs 中的推理过程提供启示。