LLM2D

摘要

arXiv:2505.01618v1 类型: 交叉摘要: 我们研究了在使用不同参数化（即随模型尺寸变化调整模型和优化器超参数的规则）进行大规模语言模型训练时的计算效率。一些参数化在模型深度发生变化时无法顺利转移最佳基础超参数（如学习率），这需要从业者要么随着模型规模的扩大重新调整这些超参数（成本高昂），要么在重新调整超参数变得不可行时接受次优的训练效果。即便某些参数化可以实现超参数的转移，我们发展理论证明，在懒学习的机制下，仍然可能存在层仅学习其线性化附近特征的情况，从而阻碍了深度和非线性的有效利用。最后，我们确定并采用了被称为CompleteP的独特参数化方法，该方法实现了所有层的宽度和深度维度的超参数转移以及非懒学习。CompleteP使得更广泛的模型宽度/深度比能够保持计算效率，解锁了更适合不同硬件配置和操作环境的模型形状。此外，CompleteP在先前的最先进的方法上实现了12-34%的计算效率提升。