摘要
arXiv:2502.09969v1 类型: cross
摘要:影响函数为模型训练提供了关键性的见解,但现有的方法面临着巨大的计算成本和有限的泛化能力。尤其是,最近的工作提出了各种指标和算法来计算数据的影响,这些方法在面对大规模模型和数据集时扩展性较差。这是因为计算过程中需要昂贵的前向和反向传播,存储大型模型所需的大量内存要求,以及影响估计在新数据上的糟糕泛化能力。在本文中,我们探索了使用小型神经网络(我们称之为InfluenceNetwork)来估计影响值,实现了高达99%的成本减少。我们的评估表明,影响值可以用仅仅是完整语言模型0.0027%大小的模型进行估计(我们使用了7B和8B版本)。我们将估计影响值的算法(称为NN-CIFT:用于高效指令微调的神经网络)应用于通用指令微调的子集选择下游任务。在我们的研究中,我们包括了四种最先进的影响函数,并展示了在NN-CIFT和原始影响函数之间,即使有着显著的速度提升,性能也无任何妥协。我们对NN-CIFT的超参数进行了深入分析。我们的方法的代码可以在这里找到:https://github.com/agarwalishika/NN-CIFT。