LLM2D
智能扩展:通过小模型初始化加速大型语言模型预训练
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.12903v2

摘要

arXiv:2409.12903v2 公告类型: 替换-交叉 摘要: 语言模型的预训练阶段通常从随机初始化的参数开始。随着当前模型扩展的趋势,训练大量参数可能会非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们往往无法达到大型模型的准确性。在本文中,我们探讨了一个有趣的想法,将这两种不同的模式联系起来:我们能否开发一种方法,使用较小的预训练模型来初始化大型语言模型?这种初始化是否会在训练时间和最终准确性方面带来任何好处?在本文中,我们介绍了HyperCloning,一种可以将预训练语言模型的参数扩展到更大模型并增加隐藏维度的方法。我们的方法确保更大模型保留较小模型的功能。因此,更大模型在训练开始之前已经继承了较小模型的预测能力和准确性。我们证明,训练这种初始化模型在预训练大型语言模型所需的GPU小时数方面显著节省。