LLM2D

摘要

arXiv:2505.07796v1 类别: cross 摘要：持续预训练（CPT）已成为将强基础模型应用于特定下游任务的一种流行且有效的方法。在本文中，我们探讨了大规模语言模型在CPT过程中的学习动态。我们特别关注每一步训练过程中通用和下游领域性能的变化，通过验证损失来衡量领域性能。我们观察到，CPT损失曲线本质上表征了一个曲线向另一个隐藏曲线的转变，并可以通过分离分布偏移和学习率衰减的效果来进行描述。我们推导出了一条结合两种因素的CPT标度定律，使我们能够在任何持续训练步骤和CPT中的不同学习率调度（LRS）下预测损失。我们的建模提供了一个全面理解CPT中几个关键因素的视角，包括损失潜力、峰值学习率、训练步骤、重放比等。此外，我们的方法可以适应不同CPT目标（如平衡通用和领域特定性能）自定义训练超参数。广泛的实验表明，我们的标度定律在各种CPT数据集和训练超参数下都适用。