LLM2D

摘要

随着模型规模的不断扩大，渐进式堆叠等新型训练策略[Gong 等人，2019，Reddi 等人，2023]引起了人们的兴趣。堆叠通过逐步增加模型的深度并使用较小模型的层来初始化下一阶段，从而实现高效的训练。尽管这种增长方法在训练方面很有效，但由此产生的模型偏差在很大程度上尚未得到探索。在这项工作中，我们考察了渐进式堆叠的这一基本方面，超越了其效率优势。我们提出了一种名为 MIDAS 的渐进式堆叠变体，它可以将语言模型训练速度提高高达 40%。此外，我们发现了一个有趣的现象：MIDAS 不仅训练效率高，而且令人惊讶地具有向改进下游任务的归纳偏差，尤其是需要推理能力的任务，例如阅读理解和数学问题，尽管与基线训练相比，其困惑度相似或略差。为了进一步分析这种归纳偏差，我们构建了推理基元——简单的合成任务，它们是推理的基础——发现使用堆叠进行预训练的模型在这些基元上明显优于标准预训练，无论是否进行微调。这为这种推理归纳偏差提供了更强有力和更可靠的证据。这些关于训练效率和推理归纳偏差的发现已在 10 亿、20 亿和 80 亿参数语言模型中得到验证。最后，我们通过探索堆叠与循环模型之间的联系，推测了这种归纳偏差的潜在原因，并提供了强有力的实证分析支持。