LLM2D
Home
Arxiv
返回列表
不再出现峰值:稳定大型语言模型的预训练
Spike No More: Stabilizing the Pre-training of Large Language Models
作者:
Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki
发布日期:
10/11/2024
arXiv ID:
oai:arXiv.org:2312.16903v3
摘要
在大型语言模型的预训练过程中,经常出现损失函数峰值。这些峰值会降低大型语言模型的性能,有时甚至会破坏预训练过程。由于预训练需要大量的计算资源,我们应该避免这些峰值。基于损失函数峰值是由梯度范数突然增大引起的假设,我们通过分析子层的雅可比矩阵的谱范数,探索了保持梯度范数较小的因素。我们的研究结果表明,稳定预训练过程需要满足两个条件:较小的子层和较大的捷径。我们进行了各种实验来实证验证我们的理论分析。实验结果表明,满足这些条件的方法可以有效地防止预训练过程中的损失函数峰值。
查看原文
下载 PDF