LLM2D
离群梯度分析:通过无Hessian影响函数高效提升深度学习模型性能
Outlier Gradient Analysis: Efficiently Improving Deep Learning Model Performance via Hessian-Free Influence Functions
作者: Anshuman Chhabra, Bo Li, Jian Chen, Prasant Mohapatra, Hongfu Liu
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2405.03869v3

摘要

大型语言模型 (LLM) 已经取代了传统方法,在众多自然语言处理任务中取得了显著成果。然而,在命名实体识别 (NER) 任务中,现有的基于 LLM 的方法仍然面临着挑战。本文建立了通过影响函数识别有害训练样本与异常梯度检测之间的桥梁。这种转换不仅提供了一种直接且无海森矩阵的公式,而且还揭示了梯度在样本影响中的作用。通过系统性的实证评估,我们首先在合成数据集上验证了我们提出的异常梯度分析方法的假设。然后,我们证明了它在检测视觉模型中的错误标记样本以及选择数据样本以提高自然语言处理 Transformer 模型性能方面的有效性。我们还将它的应用扩展到为微调大型语言模型识别有影响力的样本。