LLM2D
预训练中关键批大小的扩展性如何?
How Does Critical Batch Size Scale in Pre-training?
作者: Hanlin Zhang, Depen Morwani, Nikhil Vyas, Jingfeng Wu, Difan Zou, Udaya Ghai, Dean Foster, Sham Kakade
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2410.21676v4

摘要

arXiv:2410.21676v4 宣传类型: 替换-交叉 摘要: 在给定资源下训练大规模模型需要精心设计并行策略。特别是,关于时间和计算之间权衡的关键批大小(CBS)的概念,标志着数据并行性增加导致收益递减的阈值。为实现这一目标,我们提出了一种CBS的衡量标准,并在C4数据集上预训练了一系列从8500万到12亿参数的自回归语言模型。通过广泛的超参数搜索以及对批量大小、动量、学习率及其调度等因素的仔细控制,我们系统地研究了规模对CBS的影响。然后,我们根据模型和数据规模拟合了规模律,以分离它们的影响。总体而言,我们的结果表明,CBS主要与数据规模而不是模型规模有关,这一发现我们通过分析神经网络的无限宽度极限和无限维最小二乘回归进行了理论上的解释。此外,我们强调了研究大规模预训练中常见的超参数选择和策略的重要性,而不仅仅是固定训练持续时间。