LLM2D
别懒惰:CompleteP 使深度变压器计算高效
Don't be lazy: CompleteP enables compute-efficient deep transformers
作者: Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Li, Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01618v1

摘要

arXiv:2505.01618v1 类型: 交叉 摘要: 我们研究了在使用不同参数化(即随模型尺寸变化调整模型和优化器超参数的规则)进行大规模语言模型训练时的计算效率。一些参数化在模型深度发生变化时无法顺利转移最佳基础超参数(如学习率),这需要从业者要么随着模型规模的扩大重新调整这些超参数(成本高昂),要么在重新调整超参数变得不可行时接受次优的训练效果。即便某些参数化可以实现超参数的转移,我们发展理论证明,在懒学习的机制下,仍然可能存在层仅学习其线性化附近特征的情况,从而阻碍了深度和非线性的有效利用。最后,我们确定并采用了被称为CompleteP的独特参数化方法,该方法实现了所有层的宽度和深度维度的超参数转移以及非懒学习。CompleteP使得更广泛的模型宽度/深度比能够保持计算效率,解锁了更适合不同硬件配置和操作环境的模型形状。此外,CompleteP在先前的最先进的方法上实现了12-34%的计算效率提升。