摘要
由于其规模庞大,大型语言模型 (LLM) 的预训练计算成本很高。模型增长通过利用较小的模型来加速更大模型的训练,成为一种很有前景的方法。然而,这些模型增长方法在高效 LLM 预训练中的可行性尚未得到充分探索。这项工作确定了三个关键的障碍:(O1)缺乏综合评估,(O2)未经验证的可扩展性,以及(O3)缺乏经验指南。为了解决 O1,我们将现有方法总结为四个原子增长算子,并在标准化的 LLM 预训练环境中对其进行系统评估。我们的发现表明,一种名为 Gstack 的深度堆叠算子在训练中表现出显著的加速,与强大的基线相比,它导致了损失降低,并在八个标准 NLP 基准测试中提高了整体性能。受这些有希望的结果的启发,我们进行了广泛的实验,深入研究 Gstack 以解决 O2 和 O3。对于 O2(未经验证的可扩展性),我们的研究表明,Gstack 是可扩展的,并且始终表现良好,实验涵盖了增长后高达 7B 的 LLM,以及使用 7500 亿个标记对 LLM 进行预训练。例如,与使用 3000 亿个标记训练的传统 7B 模型相比,我们的 Gstack 模型在使用 1940 亿个标记时收敛到相同的损失,速度提高了 54.6%。我们进一步通过制定指南来确定 Gstack 的增长时间和增长因子来解决 O3(缺乏经验指南),使其在一般的 LLM 预训练中变得实用。我们还对 Gstack 进行了深入讨论和全面的消融研究。我们的代码和预训练模型可在 https://llm-stacking.github.io 获取。