LLM2D

摘要

arXiv:2502.09969v1 类型: cross 摘要：影响函数为模型训练提供了关键性的见解，但现有的方法面临着巨大的计算成本和有限的泛化能力。尤其是，最近的工作提出了各种指标和算法来计算数据的影响，这些方法在面对大规模模型和数据集时扩展性较差。这是因为计算过程中需要昂贵的前向和反向传播，存储大型模型所需的大量内存要求，以及影响估计在新数据上的糟糕泛化能力。在本文中，我们探索了使用小型神经网络（我们称之为InfluenceNetwork）来估计影响值，实现了高达99%的成本减少。我们的评估表明，影响值可以用仅仅是完整语言模型0.0027%大小的模型进行估计（我们使用了7B和8B版本）。我们将估计影响值的算法（称为NN-CIFT：用于高效指令微调的神经网络）应用于通用指令微调的子集选择下游任务。在我们的研究中，我们包括了四种最先进的影响函数，并展示了在NN-CIFT和原始影响函数之间，即使有着显著的速度提升，性能也无任何妥协。我们对NN-CIFT的超参数进行了深入分析。我们的方法的代码可以在这里找到：https://github.com/agarwalishika/NN-CIFT。