LLM2D
大型语言模型连续预训练中的学习动态
Learning Dynamics in Continual Pre-Training for Large Language Models
作者: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07796v1

摘要

arXiv:2505.07796v1 类别: cross 摘要:持续预训练(CPT)已成为将强基础模型应用于特定下游任务的一种流行且有效的方法。在本文中,我们探讨了大规模语言模型在CPT过程中的学习动态。我们特别关注每一步训练过程中通用和下游领域性能的变化,通过验证损失来衡量领域性能。我们观察到,CPT损失曲线本质上表征了一个曲线向另一个隐藏曲线的转变,并可以通过分离分布偏移和学习率衰减的效果来进行描述。我们推导出了一条结合两种因素的CPT标度定律,使我们能够在任何持续训练步骤和CPT中的不同学习率调度(LRS)下预测损失。我们的建模提供了一个全面理解CPT中几个关键因素的视角,包括损失潜力、峰值学习率、训练步骤、重放比等。此外,我们的方法可以适应不同CPT目标(如平衡通用和领域特定性能)自定义训练超参数。广泛的实验表明,我们的标度定律在各种CPT数据集和训练超参数下都适用。