LLM2D

摘要

arXiv:2405.03869v5 宣告类型: replace-cross 摘要: 一种核心的数据为中心的机器学习挑战是识别对模型性能有害的训练样本。影响函数为此任务提供了一种突出的工具，并提供了一种评估训练数据对模型预测影响的稳健框架。尽管它们被广泛使用，但由于计算Hessian矩阵的逆向量涉及的高计算成本，它们在分析大型深度模型时受到限制。在这篇论文中，我们建立了通过影响函数识别有害训练样本与异常梯度检测之间的桥梁。这一转换不仅提供了一种直接且不依赖Hessian的方法，还提供了梯度在样本影响中作用的见解。通过系统的实证评估，我们首先在合成数据集上验证了我们提出的异常梯度分析方法的假设。然后，我们证明了它在检测视觉模型中的错标样本以及选择自然语言处理变换器模型的性能改进数据样本方面的有效性。我们还将其用于大型语言模型微调中的影响样本识别。