摘要
最先进的大语言模型 (LLM) 是通过扩展来实现的——扩展模型大小、数据集大小和集群大小。在最大规模的运行中,对超参数进行广泛的调整在经济上是不可行的。相反,必须从较小的实验中推断出或“转移”近似最优的超参数。Yang 等人已经研究了跨模型大小的超参数转移。然而,跨数据集大小(或标记范围)的超参数转移尚未得到研究。为了弥补这一不足,我们对最优学习率 (LR) 如何依赖于 LLM 训练中的标记范围进行了大规模的实证研究。我们首先证明了最优 LR 会随着标记范围发生显著变化——更长的训练需要更小的 LR。其次,我们证明了最优 LR 遵循一个缩放定律,并且可以通过我们的缩放定律从较短的范围内准确地估计出较长范围的最优 LR。我们还提供了一个经验法则,用于在不增加当前实践开销的情况下,跨标记范围转移 LR。最后,我们提供了证据表明 LLama-1 使用了过高的 LR,并估计了由此带来的性能损失。因此,我们认为跨数据大小的超参数转移是 LLM 训练中一个重要且被忽视的组成部分。