摘要
arXiv:2402.02791v3 公告类型: 替换-交叉
摘要:大型语言模型(LLMs)的能力已经通过大量数据和计算资源得到了证明。然而,在移动设备上应用语言模型正面临着巨大的计算和内存成本上的挑战,因此,高性能的小型语言模型迫切需要。受限于复杂的训练过程,有许多优化语言模型的细节很少被仔细研究。在这项研究中,基于一个具有1亿参数的超小型语言模型,我们精心设计了一系列实证研究来分析每个组件的效果。主要从三个视角进行了讨论,即神经架构、参数初始化和优化策略。几种设计公式在超小型语言模型中被实验证明特别有效,包括词令牌压缩、架构调整、参数继承和多轮训练。然后,我们按照已建立的公式,使用1.6T多语种语料库训练了PanGu-$\pi$-1B Pro和PanGu-$\pi$-1.5B Pro。实验结果表明,改进的优化与架构在基准评估集上使PanGu-$\pi$-1B Pro的平均改进达到8.87。此外,PanGu-$\pi$-1.5B Pro超越了具有更大模型规模的一系列最新模型,验证了其优越的表现。代码可在https://github.com/YuchuanTian/RethinkTinyLM获取。