摘要
arXiv:2503.19206v2 通告类型: replace-cross
摘要: 在假设更好的预训练性能会转化为改进的下游模型的前提下,大型语言模型在不断增加的令牌预算下进行预训练。在这项工作中,我们挑战了这一假设,并展示了延长预训练会使模型更难以微调,从而导致最终性能下降。我们将这一现象称为灾难性过训练。例如,指令微调的OLMo-1B模型在3T令牌下进行预训练,其性能在多个标准LLM基准测试中比其2.3T令牌的对应模型差2%以上。通过控制实验和理论分析,我们表明灾难性过训练来自于预训练参数对修改的广泛敏感性的系统性增加,包括但不限于微调。我们的发现呼吁对预训练设计进行重新评估,以考虑模型的下游适应性。