LLM2D

摘要

由于其规模庞大，大型语言模型 (LLM) 的预训练计算成本很高。模型增长通过利用较小的模型来加速更大模型的训练，成为一种很有前景的方法。然而，这些模型增长方法在高效 LLM 预训练中的可行性尚未得到充分探索。这项工作确定了三个关键的障碍：（O1）缺乏综合评估，（O2）未经验证的可扩展性，以及（O3）缺乏经验指南。为了解决 O1，我们将现有方法总结为四个原子增长算子，并在标准化的 LLM 预训练环境中对其进行系统评估。我们的发现表明，一种名为 Gstack 的深度堆叠算子在训练中表现出显著的加速，与强大的基线相比，它导致了损失降低，并在八个标准 NLP 基准测试中提高了整体性能。受这些有希望的结果的启发，我们进行了广泛的实验，深入研究 Gstack 以解决 O2 和 O3。对于 O2（未经验证的可扩展性），我们的研究表明，Gstack 是可扩展的，并且始终表现良好，实验涵盖了增长后高达 7B 的 LLM，以及使用 7500 亿个标记对 LLM 进行预训练。例如，与使用 3000 亿个标记训练的传统 7B 模型相比，我们的 Gstack 模型在使用 1940 亿个标记时收敛到相同的损失，速度提高了 54.6%。我们进一步通过制定指南来确定 Gstack 的增长时间和增长因子来解决 O3（缺乏经验指南），使其在一般的 LLM 预训练中变得实用。我们还对 Gstack 进行了深入讨论和全面的消融研究。我们的代码和预训练模型可在 https://llm-stacking.github.io 获取。