LLM2D
Home
Arxiv
返回列表
大型语言模型训练的神经热力学定律
Neural Thermodynamic Laws for Large Language Model Training
作者:
Ziming Liu, Yizhou Liu, Jeff Gore, Max Tegmark
发布日期:
5/16/2025
arXiv ID:
oai:arXiv.org:2505.10559v1
摘要
arXiv:2505.10559v1 Announce Type: 跨学科 摘要:除了神经网络的 Scaling 规律之外,关于大型语言模型(LLMs)背后的规律知之甚少。我们引入了神经热力学定律(NTL)——一个新的框架,提供了对 LLM 训练动力学的新见解。在理论方面,我们证明在河谷损失景观假设下,关键的热力学量(例如,温度、熵、比热、热传导)和经典热力学原理(例如,热力学三大定律和等分定理)自然地出现。在实践方面,这种科学视角为设计学习率调度提供了直观的指导。
查看原文
下载 PDF