摘要
arXiv:2505.04075v1 Announce Type: cross
摘要:本文通过分析在最先进的语言模型(LLM)中使用的算法的开发和作用,探讨大型语言模型的能力是否能够在无需额外计算资源的情况下继续进步。鉴于监管努力主要集中在限制高性能硬件的访问上,我们提出的问题是:在受限计算环境中,LLM 是否能够取得进步,以及在这种条件下算法创新如何表现?
为了回答这些问题,我们引入了一种新的分类框架,将计算依赖性创新(在高计算水平下提供不成比例的好处,例如Transformers 架构和专家混合模型)与计算独立性创新区分开来(在所有计算规模上提高效率,例如旋转位置编码、FlashAttention 或层规范化)。我们使用一种称为计算等效收益(CEG)的度量标准来量化这些贡献,该标准估计在没有这些算法进步的情况下实现类似改进所需的额外计算资源。
为了验证这一框架,我们使用缩小规模的GPT-2模型进行了小型训练实验。结果显示,即使在资源受限的环境中,计算独立性的进步仍能带来有意义的性能提升,与基准模型相比,计算等效收益可高达3.5倍。相比之下,计算依赖性的进步在小型规模下几乎没有收益甚至降低了性能,这突显了某些算法进步中计算资源可用性的重要性。