LLM2D

摘要

大型语言模型（LLM）在处理现实世界中的复杂任务方面展现出巨大潜力，其外部行为和内部机制的研究成果令人瞩目。研究表明，像 GPT-4 这样的强大 LLM 正在开始展现出类似人类的认知能力，包括规划、推理和反思。本文提出了一种名为“LLM 心理学”的研究方向和方法，借鉴人类心理学实验来探究 LLM 的认知行为和机制。我们从心理学领域引入“字形错乱现象”，以探索 LLM 的“思维”。与人类大脑依赖上下文和词语模式来理解打乱的文本不同，LLM 使用不同的编码和解码过程。通过在字符、词语和句子级别进行字形错乱实验，我们观察到：(I) LLM 在宏观层面上表现出类似人类的行为，例如任务准确率降低，标记/时间消耗增加；(II) LLM 对打乱的输入表现出不同的鲁棒性，使字形错乱成为模型评估的基准，无需新的数据集；(III) 不同的任务类型对 LLM 的影响不同，复杂的逻辑任务（如数学）在打乱形式下更具挑战性；(IV) 每个 LLM 在不同任务中都拥有独特的且一致的“认知模式”，揭示了其心理学过程中的通用机制。我们对隐藏层进行了深入分析，以解释这些现象，为未来 LLM 心理学研究和更深层次的可解释性铺平道路。