摘要
arXiv:2503.19206v1 宣告类型: cross
摘要: 大型语言模型在不断增加的令牌预算下进行预训练,假设更好的预训练性能会转化为下游模型的改进。在这项工作中,我们挑战了这一假设,并表明延长预训练会使模型更难调整,导致最终性能下降。我们称这种现象为灾难性过度训练。例如,用于指令调整的 OLMo-1B 模型,在 3T 令牌上进行预训练,比其在 2.3T 令牌上进行预训练的对应模型在多个标准语言模型基准上的性能差超过 2%。通过受控实验和理论分析,我们表明灾难性过度训练源于预训练参数对修改的系统性敏感度增加,包括但不限于微调。我们的发现呼吁对预训练设计进行全面重新评估,以考虑模型的下游适应性。