LLM2D
三相转变:从神经科学视角理解大规模语言模型的 learning 动力学
Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective
作者: Yuko Nakagi, Keigo Tada, Sota Yoshino, Shinji Nishimoto, Yu Takagi
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2502.20779v2

摘要

arXiv:2502.20779v2 通知类型: replace-cross 摘要:大型语言模型(LLMs)通常会在训练过程中表现出突然的涌现行为,即在训练的某个阶段会出现新的能力。这种现象通常被称为“相变”,尚未得到充分理解。在本研究中,我们通过三个相互关联的视角对这种相变进行综合分析:LLMs与人类大脑的相似性、LLMs的内部状态以及下游任务性能。我们提出了一个关于LLMs在训练数据和架构变化时学习动态的新解释,揭示了这些模型在训练过程中普遍会经历三个相变阶段:(1)当LLMs开始遵循任务指令时,与整个大脑的对齐迅速增加,称为大脑对齐和指令跟随;(2)出乎意料的是,在下游任务精度暂时停滞的时期,LLMs与大脑脱离,称为大脑脱离和停滞;(3)随着LLMs能够解决下游任务,与大脑的重新对齐和巩固重新出现,称为大脑重新对齐和巩固。这些发现揭示了LLMs中相变的内在机制,同时也为人工智能与神经科学之间的跨学科研究开辟了新的途径。