LLM2D
不要偷懒:CompleteP enables 计算高效的大规模变压器模型
Don't be lazy: CompleteP enables compute-efficient deep transformers
作者: Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Li, Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.01618v2

摘要

arXiv:2505.01618v2 宣告类型: replace-cross 摘要: 我们研究了在使用不同参数化(即随模型大小变化调整模型和优化器超参数(HPs)的规则)时大型语言模型(LLM)训练的计算效率。某些参数化无法将最优基础HPs(例如学习率)转移到模型深度变化时,要求实践者要么在扩大模型时重新调整这些HPs(昂贵),要么接受次优训练以避免重新调整的高昂成本。即使它们实现了HP转移,我们发展理论表明,在懒学习区间,参数化仍可能存在,其中仅学习靠近线性化特征的层,这会阻碍深度和非线性的有效使用。最后,我们确定并采用了我们称为CompleteP的参数化方法,该方法在所有层中实现了深度化的HP转移和非懒学习。CompleteP使更广泛的模型宽度/深度比例能够保持计算效率,并解锁更适合不同硬件设置和操作上下文的形状。此外,CompleteP在先前的最先进方法上实现了12-34%的计算效率提升。