LLM2D
MoFO:用于减轻大语言模型微调遗忘问题的动量过滤优化器
MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning
作者: Yupeng Chen, Senmiao Wang, Yushun Zhang, Zhihang Lin, Haozhe Zhang, Weijian Sun, Tian Ding, Ruoyu Sun
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2407.20999v3

摘要

arXiv:2407.20999v3 公告类型: replace-cross 摘要:大规模语言模型(LLMs)在各种任务中展现了非凡的能力。通常,LLMs 首先在大型语料库上进行预训练,然后在特定任务的数据集上进行微调。然而,在微调过程中,LLMs 可能会忘记在预训练阶段获得的一些知识,导致整体能力下降。现有的减轻遗忘的方法通常依赖于访问预训练数据,而在许多现实场景中,这样的数据可能不可用,例如,仅提供微调检查点的开源LLMs。为了解决这一挑战,我们提出了一种新的微调算法,称为动量筛选优化器(MoFO)。MoFO 是贪婪分块坐标下降(BCD)方法的一种扩展:在每次迭代中,MoFO 只更新具有最大动量幅度的模型参数,而保持所有其他参数不变。MoFO 在微调性能上达到了默认微调算法的类似水平,同时有效地减轻了知识遗忘。我们通过严格的收敛分析和广泛的实验验证了 MoFO,证明了它能够在没有预训练数据的情况下有效地减轻遗忘。