LLM2D
大型语言模型训练的神经热力学定律
Neural Thermodynamic Laws for Large Language Model Training
作者: Ziming Liu, Yizhou Liu, Jeff Gore, Max Tegmark
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10559v1

摘要

arXiv:2505.10559v1 Announce Type: 跨学科 摘要:除了神经网络的 Scaling 规律之外,关于大型语言模型(LLMs)背后的规律知之甚少。我们引入了神经热力学定律(NTL)——一个新的框架,提供了对 LLM 训练动力学的新见解。在理论方面,我们证明在河谷损失景观假设下,关键的热力学量(例如,温度、熵、比热、热传导)和经典热力学原理(例如,热力学三大定律和等分定理)自然地出现。在实践方面,这种科学视角为设计学习率调度提供了直观的指导。