LLM2D
预训练中关键批量大小如何 scaling?
How Does Critical Batch Size Scale in Pre-training?
作者: Hanlin Zhang, Depen Morwani, Nikhil Vyas, Jingfeng Wu, Difan Zou, Udaya Ghai, Dean Foster, Sham Kakade
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2410.21676v3

摘要

arXiv:2410.21676v3 宣布类型: replace-cross 摘要:在给定资源下训练大规模模型需要仔细设计并行策略。特别是,关于时间和计算之间的权衡,临界批大小(CBS)的概念标志着进一步的数据并行会带来递减回报的门槛。为了将其实施,我们提出了一个CBS衡量标准,并在C4数据集上对从8500万到12亿参数的自回归语言模型进行了预训练。通过广泛的研究超参数,请教并仔细控制因素如批大小、动量、学习率及其调度策略,我们系统地研究了规模对CBS的影响。然后,我们根据模型和数据规模拟合了缩放定律,以分离它们的影响。总体而言,我们的结果表明,CBS 主要与数据规模而非模型规模成比例变化,我们通过对神经网络无穷宽度极限和无穷维最小二乘回归的分析,从理论上解释了这一发现。此外,我们强调了对于研究大规模预训练的重要性,不仅仅是固定训练持续时间的情况下,共同的超参数选择和策略同样重要。