LLM2D

摘要

arXiv:2502.09969v2 交叉公告类型：交叉摘要：影响函数提供了有关模型训练的重要见解，但现有的方法存在较大的计算成本和有限的一般性。特别是，最近的研究提出了各种用于计算数据影响的度量和算法，这些方法在大型模型和数据集面前并不适用于扩展。这是因为在计算过程中需要昂贵的前向和反向传递，需要大量内存来存储大型模型，以及影响估计对新数据的一般性较差。在本文中，我们探索了使用小型神经网络——我们称之为影响网络——来估计影响值，实现了高达99%的成本减少。我们的评估表明，影响值可以用仅占完整语言模型0.0027%大小的模型来估计（我们使用了7B和8B版本的模型）。我们将用于估算影响值的算法（称为NN-CIFT：用于高效指令微调的神经网络）应用于通用指令微调的下游任务——子集选择。在我们的研究中，我们包含了四种最先进的影响函数，并在没有显著性能妥协的情况下展示了比原始影响函数有着巨大速度提升的结果。我们对NN-CIFT进行了深入的超参数分析。我们的方法的代码可以在以下链接找到：https://github.com/agarwalishika/NN-CIFT。