LLM2D

摘要

影响函数旨在量化单个训练数据点对模型预测的影响。虽然传统机器学习模型中的影响函数已经进行了广泛的研究，但它们在大型语言模型 (LLM) 中的应用却十分有限。在这项工作中，我们进行了一项系统性的研究来解决一个关键问题：影响函数在 LLM 上是否有效？具体而言，我们评估了跨多个任务的影响函数，发现它们在大多数情况下始终表现不佳。我们进一步的调查表明，它们表现不佳的原因可能是： (1) 由于 LLM 的规模，在估计 iHVP 成分时不可避免地会出现近似误差，(2) 微调过程中的收敛性不确定，以及更重要的是，(3) 定义本身，因为模型参数的变化并不一定与 LLM 行为的变化相关。因此，我们的研究表明需要采用替代方法来识别有影响力的样本。为了支持未来的工作，我们的代码已在 https://github.com/plumprc/Failures-of-Influence-Functions-in-LLMs 上公开。