LLM2D

摘要

arXiv:2408.06663v4 公告类型：替换-交叉摘要：大规模语言模型的发展形成了先预训练再对齐的范式，在这一范式中，模型通常在大规模文本语料库上进行预训练，并经历一个调整阶段，使模型与人类偏见或下游任务对齐。在这项工作中，我们通过对多个中间预训练模型检查点进行微调来研究预训练与微调之间的关系。我们的18个数据集上的结果显示：i) 持续预训练以潜在的方式改善模型，在微调后才显现；ii) 通过额外的微调，模型展示能力不足的数据集比预训练阶段表现良好的数据集获得更多提升；iii) 尽管通过监督微调模型能够显著受益，但它可能会忘记之前已知的领域知识和在微调过程中未看到的任务；iv) 模型在监督微调后对评估提示显示出高度敏感性，但通过更多的预训练可以减轻这种敏感性。