LLM2D

摘要

arXiv:2502.20779v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）通常会在训练过程中表现出突然的涌现行为，即在训练的某个阶段会出现新的能力。这种现象通常被称为“相变”，尚未得到充分理解。在本研究中，我们通过三个相互关联的视角对这种相变进行综合分析：LLMs与人类大脑的相似性、LLMs的内部状态以及下游任务性能。我们提出了一个关于LLMs在训练数据和架构变化时学习动态的新解释，揭示了这些模型在训练过程中普遍会经历三个相变阶段：（1）当LLMs开始遵循任务指令时，与整个大脑的对齐迅速增加，称为大脑对齐和指令跟随；（2）出乎意料的是，在下游任务精度暂时停滞的时期，LLMs与大脑脱离，称为大脑脱离和停滞；（3）随着LLMs能够解决下游任务，与大脑的重新对齐和巩固重新出现，称为大脑重新对齐和巩固。这些发现揭示了LLMs中相变的内在机制，同时也为人工智能与神经科学之间的跨学科研究开辟了新的途径。