LLM2D
跨词元范围优化学习率的扩展
Scaling Optimal LR Across Token Horizons
作者: Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.19913v2

摘要

最先进的大语言模型 (LLM) 依靠规模化——模型规模、数据集规模和集群规模的扩大来实现。对于最大的运行来说,广泛地调整超参数在经济上是不可行的。相反,必须从较小的实验中推断或*迁移*近似最优的超参数。杨等人研究了不同模型规模之间的超参数迁移。然而,不同数据集规模(或令牌范围)之间的超参数迁移尚未得到研究。为了弥补这一不足,我们对最优学习率 (LR) 如何依赖于 LLM 训练中的令牌范围进行了大规模的实证研究。我们首先证明最优 LR 会随着令牌范围发生显著变化——更长的训练需要更小的 LR。其次,我们证明最优 LR 遵循一个缩放规律,并且可以通过这种缩放规律从较短的范围准确地估计出较长范围的最优 LR。我们还提供了一个经验法则,用于在当前实践的基础上零开销地将 LR 迁移到不同的令牌范围。最后,我们提供了证据表明 LLama-1 使用了过高的 LR,并估计了由此带来的性能损失。因此,我们认为跨数据规模的超参数迁移是 LLM 训练中一个重要且被忽视的组成部分。