LLM2D

摘要

arXiv:2502.02797v1 分类：交叉学科摘要：在下游任务上微调预训练模型常常会削弱其原始能力，这一现象被称为“灾难性遗忘”。特别是在没有访问预训练模型开发所用数据和食谱的情况下，这一问题尤为突出。在这一约束条件下，大多数现有的防止遗忘的方法都不适用。为了解决这一挑战，我们提出了一种基于预训练模型损失的微调数据的样本加权方案。具体来说，我们强调预训练模型损失较低的简单样本的重要性，反之亦然，以限制模型向预训练状态的偏离。我们的方法与现有的方法既不冲突又互补；尽管这些方法主要在参数或梯度空间中操作，我们则集中在样本空间。我们在线性设置下理论分析了使用我们方法进行微调的影响，表明它在某个子空间内停滞学习，从而抑制对目标任务的过度拟合。我们实证地展示了我们在语言和视觉任务中的方法的有效性。例如，在对MetaMathQA进行Gemma 2 2B的微调时，我们的方法在GSM8K（另一个数学数据集）上的准确率仅比标准微调低0.8%，同时在预训练数据集上的准确率提高了5.4%。我们的代码已在https://github.com/sanyalsunny111/FLOW_finetuning 公开可供使用。