摘要
arXiv:2502.20779v2 通知类型: replace-cross
摘要:大型语言模型(LLMs)通常会在训练过程中表现出突然的涌现行为,即在训练的某个阶段会出现新的能力。这种现象通常被称为“相变”,尚未得到充分理解。在本研究中,我们通过三个相互关联的视角对这种相变进行综合分析:LLMs与人类大脑的相似性、LLMs的内部状态以及下游任务性能。我们提出了一个关于LLMs在训练数据和架构变化时学习动态的新解释,揭示了这些模型在训练过程中普遍会经历三个相变阶段:(1)当LLMs开始遵循任务指令时,与整个大脑的对齐迅速增加,称为大脑对齐和指令跟随;(2)出乎意料的是,在下游任务精度暂时停滞的时期,LLMs与大脑脱离,称为大脑脱离和停滞;(3)随着LLMs能够解决下游任务,与大脑的重新对齐和巩固重新出现,称为大脑重新对齐和巩固。这些发现揭示了LLMs中相变的内在机制,同时也为人工智能与神经科学之间的跨学科研究开辟了新的途径。