LLM2D
在微调中加强简单样本的权重可减轻遗忘现象
Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting
作者: Sunny Sanyal, Hayden Prairie, Rudrajit Das, Ali Kavis, Sujay Sanghavi
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02797v1

摘要

arXiv:2502.02797v1 分类:交叉学科 摘要:在下游任务上微调预训练模型常常会削弱其原始能力,这一现象被称为“灾难性遗忘”。特别是在没有访问预训练模型开发所用数据和食谱的情况下,这一问题尤为突出。在这一约束条件下,大多数现有的防止遗忘的方法都不适用。为了解决这一挑战,我们提出了一种基于预训练模型损失的微调数据的样本加权方案。具体来说,我们强调预训练模型损失较低的简单样本的重要性,反之亦然,以限制模型向预训练状态的偏离。我们的方法与现有的方法既不冲突又互补;尽管这些方法主要在参数或梯度空间中操作,我们则集中在样本空间。我们在线性设置下理论分析了使用我们方法进行微调的影响,表明它在某个子空间内停滞学习,从而抑制对目标任务的过度拟合。我们实证地展示了我们在语言和视觉任务中的方法的有效性。例如,在对MetaMathQA进行Gemma 2 2B的微调时,我们的方法在GSM8K(另一个数学数据集)上的准确率仅比标准微调低0.8%,同时在预训练数据集上的准确率提高了5.4%。我们的代码已在https://github.com/sanyalsunny111/FLOW_finetuning 公开可供使用。