LLM2D

摘要

arXiv:2407.20999v3 公告类型: replace-cross 摘要：大规模语言模型（LLMs）在各种任务中展现了非凡的能力。通常，LLMs 首先在大型语料库上进行预训练，然后在特定任务的数据集上进行微调。然而，在微调过程中，LLMs 可能会忘记在预训练阶段获得的一些知识，导致整体能力下降。现有的减轻遗忘的方法通常依赖于访问预训练数据，而在许多现实场景中，这样的数据可能不可用，例如，仅提供微调检查点的开源LLMs。为了解决这一挑战，我们提出了一种新的微调算法，称为动量筛选优化器（MoFO）。MoFO 是贪婪分块坐标下降（BCD）方法的一种扩展：在每次迭代中，MoFO 只更新具有最大动量幅度的模型参数，而保持所有其他参数不变。MoFO 在微调性能上达到了默认微调算法的类似水平，同时有效地减轻了知识遗忘。我们通过严格的收敛分析和广泛的实验验证了 MoFO，证明了它能够在没有预训练数据的情况下有效地减轻遗忘。