LLM2D
LESA:可学习的大型语言模型层扩展
LESA: Learnable LLM Layer Scaling-Up
作者: Yifei Yang, Zouying Cao, Xinbei Ma, Yao Yao, Libo Qin, Zhi Chen, Hai Zhao
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13794v1

摘要

arXiv:2502.13794v1 宣告类型: cross 摘要: 从头训练大规模语言模型(LLMs)需要极大的计算资源,使其变得极其昂贵。通过利用较小模型的参数来创建较大的模型,模型的扩展提供了一个有希望的解决方案。然而,现有的深度扩展方法依赖于层复制的统计启发式规则,这导致在持续预训练过程中有较差的初始化和较慢的收敛速度。我们提出了一种新颖的学习方法 \textbf{LESA} 用于深度扩展。通过将每一层的参数连接起来并应用奇异值分解,我们发现了层间隐藏的模式,表明层间的参数可以被学习。LESA 使用神经网络预测相邻层之间插入的参数,这有助于更好的初始化和更快的训练。实验表明,LESA 在持续预训练过程中实现了优于现有基线的性能,且计算成本仅为一半以下。广泛的分析展示了其在不同模型大小和任务上的有效性。