LLM2D

摘要

arXiv:2410.21676v3 宣布类型: replace-cross 摘要：在给定资源下训练大规模模型需要仔细设计并行策略。特别是，关于时间和计算之间的权衡，临界批大小（CBS）的概念标志着进一步的数据并行会带来递减回报的门槛。为了将其实施，我们提出了一个CBS衡量标准，并在C4数据集上对从8500万到12亿参数的自回归语言模型进行了预训练。通过广泛的研究超参数，请教并仔细控制因素如批大小、动量、学习率及其调度策略，我们系统地研究了规模对CBS的影响。然后，我们根据模型和数据规模拟合了缩放定律，以分离它们的影响。总体而言，我们的结果表明，CBS 主要与数据规模而非模型规模成比例变化，我们通过对神经网络无穷宽度极限和无穷维最小二乘回归的分析，从理论上解释了这一发现。此外，我们强调了对于研究大规模预训练的重要性，不仅仅是固定训练持续时间的情况下，共同的超参数选择和策略同样重要。