摘要
arXiv:2402.02791v4 通知类型: replace-cross
摘要:大型语言模型(LLMs)的力量已经在大量的数据和计算资源中得到了展示。然而,在移动设备上应用语言模型面临着巨大的计算和内存成本挑战,因此,迫切需要高性能的小型语言模型。由于训练过程的高复杂性限制,优化语言模型的许多细节很少被仔细研究。在此研究中,基于一个具有1B参数的小型语言模型,我们精心设计了一系列实证研究,以分析每个组件的影响。主要从三个视角进行了讨论,即神经架构、参数初始化和优化策略。一些设计公式被实证证明尤其有效,包括标记化器压缩、架构微调、参数继承和多轮训练。然后,我们在1.6T的多语种语料库上训练了Pangu-$\pi$-1B Pro和Pangu-$\pi$-1.5B Pro,遵循已建立的公式。实验结果表明,改进的优化和架构在基准评估集上为Pangu-$\pi$-1B Pro带来了明显的平均改进,达到8.87。此外,Pangu-$\pi$-1.5B Pro在更大的模型规模范围内超过了多种当前最佳模型,验证了其优越的性能。相关代码可在https://github.com/YuchuanTian/RethinkTinyLM获取。