摘要
大型语言模型(LLMs)在解决物理世界中的复杂任务方面展现出巨大潜力,对它们外部行为和内部机制的研究也取得了进展。研究表明,像 GPT-4 这样的强大 LLM 正在开始展现出类似人类的认知能力,包括计划、推理和反思。本文提出了一条名为“LLM 心理学”的研究路线和方法,利用人类心理学实验来研究 LLM 的认知行为和机制。我们将心理学中的“字母错位现象”迁移到 LLM 研究中,以探索 LLM 的“思维”。与依靠上下文和词语模式理解乱序文本的人类大脑不同,LLMs 采用不同的编码和解码过程。通过在字符、词语和句子级别进行字母错位实验,我们观察到:
(I) LLM 在宏观层面上表现出类似人类的行为,例如任务准确率降低,标记/时间消耗增加;
(II) LLM 对乱序输入表现出不同的鲁棒性,使得字母错位成为模型评估的基准,无需新的数据集;
(III) 不同的任务类型具有不同的影响,复杂逻辑任务(例如数学)在乱序形式下更具挑战性;
(IV) 每个 LLM 在不同任务中都具有独特且一致的“认知模式”,揭示了其心理学过程中的通用机制。
我们对隐藏层进行了深入分析,以解释这些现象,为 LLM 心理学和更深层次的可解释性方面的未来研究铺平了道路。