LLM2D

摘要

arXiv:2502.13794v1 宣告类型: cross 摘要: 从头训练大规模语言模型(LLMs)需要极大的计算资源，使其变得极其昂贵。通过利用较小模型的参数来创建较大的模型，模型的扩展提供了一个有希望的解决方案。然而，现有的深度扩展方法依赖于层复制的统计启发式规则，这导致在持续预训练过程中有较差的初始化和较慢的收敛速度。我们提出了一种新颖的学习方法 \textbf{LESA} 用于深度扩展。通过将每一层的参数连接起来并应用奇异值分解，我们发现了层间隐藏的模式，表明层间的参数可以被学习。LESA 使用神经网络预测相邻层之间插入的参数，这有助于更好的初始化和更快的训练。实验表明，LESA 在持续预训练过程中实现了优于现有基线的性能，且计算成本仅为一半以下。广泛的分析展示了其在不同模型大小和任务上的有效性。