摘要
理解语言模型性能如何随规模变化对于基准测试和算法开发至关重要。规模定律是构建这种理解的一种方法,但它需要跨许多不同规模训练模型,这限制了其应用。我们提出了一种替代的、基于观测的方法,它绕过了模型训练,而是从大约 100 个公开可用的模型中构建规模定律。由于不同模型家族的训练计算效率和能力存在很大差异,因此从多个模型家族构建单个规模定律具有挑战性。然而,我们表明这些差异与一个简单的、广义的规模定律一致,其中语言模型性能是低维能力空间的函数,而模型家族仅在其将训练计算转换为能力的效率上有所不同。使用这种方法,我们展示了复杂规模现象的惊人可预测性:我们表明,几个新出现的现象遵循平滑的 S 形行为,并且可以从小型模型中预测;我们表明,GPT-4 等模型的代理性能可以从更简单的非代理基准中精确预测;我们还展示了如何预测随着语言模型能力不断提高,链式思维和自一致性等训练后干预的影响。