摘要
arXiv:2407.20999v3 公告类型: replace-cross
摘要:大规模语言模型(LLMs)在各种任务中展现了非凡的能力。通常,LLMs 首先在大型语料库上进行预训练,然后在特定任务的数据集上进行微调。然而,在微调过程中,LLMs 可能会忘记在预训练阶段获得的一些知识,导致整体能力下降。现有的减轻遗忘的方法通常依赖于访问预训练数据,而在许多现实场景中,这样的数据可能不可用,例如,仅提供微调检查点的开源LLMs。为了解决这一挑战,我们提出了一种新的微调算法,称为动量筛选优化器(MoFO)。MoFO 是贪婪分块坐标下降(BCD)方法的一种扩展:在每次迭代中,MoFO 只更新具有最大动量幅度的模型参数,而保持所有其他参数不变。MoFO 在微调性能上达到了默认微调算法的类似水平,同时有效地减轻了知识遗忘。我们通过严格的收敛分析和广泛的实验验证了 MoFO,证明了它能够在没有预训练数据的情况下有效地减轻遗忘。