摘要
arXiv:2410.21676v3 宣布类型: replace-cross
摘要:在给定资源下训练大规模模型需要仔细设计并行策略。特别是,关于时间和计算之间的权衡,临界批大小(CBS)的概念标志着进一步的数据并行会带来递减回报的门槛。为了将其实施,我们提出了一个CBS衡量标准,并在C4数据集上对从8500万到12亿参数的自回归语言模型进行了预训练。通过广泛的研究超参数,请教并仔细控制因素如批大小、动量、学习率及其调度策略,我们系统地研究了规模对CBS的影响。然后,我们根据模型和数据规模拟合了缩放定律,以分离它们的影响。总体而言,我们的结果表明,CBS 主要与数据规模而非模型规模成比例变化,我们通过对神经网络无穷宽度极限和无穷维最小二乘回归的分析,从理论上解释了这一发现。此外,我们强调了对于研究大规模预训练的重要性,不仅仅是固定训练持续时间的情况下,共同的超参数选择和策略同样重要。