LLM2D

摘要

arXiv:2402.02791v4 通知类型: replace-cross 摘要：大型语言模型（LLMs）的力量已经在大量的数据和计算资源中得到了展示。然而，在移动设备上应用语言模型面临着巨大的计算和内存成本挑战，因此，迫切需要高性能的小型语言模型。由于训练过程的高复杂性限制，优化语言模型的许多细节很少被仔细研究。在此研究中，基于一个具有1B参数的小型语言模型，我们精心设计了一系列实证研究，以分析每个组件的影响。主要从三个视角进行了讨论，即神经架构、参数初始化和优化策略。一些设计公式被实证证明尤其有效，包括标记化器压缩、架构微调、参数继承和多轮训练。然后，我们在1.6T的多语种语料库上训练了Pangu-$\pi$-1B Pro和Pangu-$\pi$-1.5B Pro，遵循已建立的公式。实验结果表明，改进的优化和架构在基准评估集上为Pangu-$\pi$-1B Pro带来了明显的平均改进，达到8.87。此外，Pangu-$\pi$-1.5B Pro在更大的模型规模范围内超过了多种当前最佳模型，验证了其优越的性能。相关代码可在https://github.com/YuchuanTian/RethinkTinyLM获取。