摘要
大型语言模型(LLM)在处理现实世界中的复杂任务方面展现出巨大潜力,其外部行为和内部机制的研究成果令人瞩目。研究表明,像 GPT-4 这样的强大 LLM 正在开始展现出类似人类的认知能力,包括规划、推理和反思。本文提出了一种名为“LLM 心理学”的研究方向和方法,借鉴人类心理学实验来探究 LLM 的认知行为和机制。我们从心理学领域引入“字形错乱现象”,以探索 LLM 的“思维”。与人类大脑依赖上下文和词语模式来理解打乱的文本不同,LLM 使用不同的编码和解码过程。通过在字符、词语和句子级别进行字形错乱实验,我们观察到:(I) LLM 在宏观层面上表现出类似人类的行为,例如任务准确率降低,标记/时间消耗增加;(II) LLM 对打乱的输入表现出不同的鲁棒性,使字形错乱成为模型评估的基准,无需新的数据集;(III) 不同的任务类型对 LLM 的影响不同,复杂的逻辑任务(如数学)在打乱形式下更具挑战性;(IV) 每个 LLM 在不同任务中都拥有独特的且一致的“认知模式”,揭示了其心理学过程中的通用机制。我们对隐藏层进行了深入分析,以解释这些现象,为未来 LLM 心理学研究和更深层次的可解释性铺平道路。