LLM2D

摘要

arXiv:2505.01618v2 宣告类型: replace-cross 摘要: 我们研究了在使用不同参数化（即随模型大小变化调整模型和优化器超参数（HPs）的规则）时大型语言模型（LLM）训练的计算效率。某些参数化无法将最优基础HPs（例如学习率）转移到模型深度变化时，要求实践者要么在扩大模型时重新调整这些HPs（昂贵），要么接受次优训练以避免重新调整的高昂成本。即使它们实现了HP转移，我们发展理论表明，在懒学习区间，参数化仍可能存在，其中仅学习靠近线性化特征的层，这会阻碍深度和非线性的有效使用。最后，我们确定并采用了我们称为CompleteP的参数化方法，该方法在所有层中实现了深度化的HP转移和非懒学习。CompleteP使更广泛的模型宽度/深度比例能够保持计算效率，并解锁更适合不同硬件设置和操作上下文的形状。此外，CompleteP在先前的最先进方法上实现了12-34%的计算效率提升。