LLM2D

摘要

大型语言模型（LLMs）在解决物理世界中的复杂任务方面展现出巨大潜力，对它们外部行为和内部机制的研究也取得了进展。研究表明，像 GPT-4 这样的强大 LLM 正在开始展现出类似人类的认知能力，包括计划、推理和反思。本文提出了一条名为“LLM 心理学”的研究路线和方法，利用人类心理学实验来研究 LLM 的认知行为和机制。我们将心理学中的“字母错位现象”迁移到 LLM 研究中，以探索 LLM 的“思维”。与依靠上下文和词语模式理解乱序文本的人类大脑不同，LLMs 采用不同的编码和解码过程。通过在字符、词语和句子级别进行字母错位实验，我们观察到： (I) LLM 在宏观层面上表现出类似人类的行为，例如任务准确率降低，标记/时间消耗增加； (II) LLM 对乱序输入表现出不同的鲁棒性，使得字母错位成为模型评估的基准，无需新的数据集； (III) 不同的任务类型具有不同的影响，复杂逻辑任务（例如数学）在乱序形式下更具挑战性； (IV) 每个 LLM 在不同任务中都具有独特且一致的“认知模式”，揭示了其心理学过程中的通用机制。我们对隐藏层进行了深入分析，以解释这些现象，为 LLM 心理学和更深层次的可解释性方面的未来研究铺平了道路。