摘要
arXiv:2409.12903v1 公告类型: 交叉 摘要: 语言模型的预训练阶段通常从随机初始化的参数开始。随着当前模型扩展的趋势,训练大量参数可能会非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们往往无法达到大型模型的准确性。在本文中,我们探讨了一个有趣的想法,将这两种不同的模式联系起来:我们能否开发一种方法,使用较小的预训练模型来初始化大型语言模型?这种初始化是否会在训练时间和最终准确性方面带来任何好处?在本文中,我们介绍了HyperCloning,一种可以将预训练语言模型的参数扩展到更大模型并增加隐藏维度的方法。我们的方法确保较大模型保留较小模型的功能。因此,较大模型在训练开始前已经继承了较小模型的预测能力和准确性。我们证明,训练这种初始化的模型在预训练大型语言模型所需的GPU小时数方面显著节省。