LLM2D

摘要

在大型语言模型的预训练过程中，经常出现损失函数峰值。这些峰值会降低大型语言模型的性能，有时甚至会破坏预训练过程。由于预训练需要大量的计算资源，我们应该避免这些峰值。基于损失函数峰值是由梯度范数突然增大引起的假设，我们通过分析子层的雅可比矩阵的谱范数，探索了保持梯度范数较小的因素。我们的研究结果表明，稳定预训练过程需要满足两个条件：较小的子层和较大的捷径。我们进行了各种实验来实证验证我们的理论分析。实验结果表明，满足这些条件的方法可以有效地防止预训练过程中的损失函数峰值。