LLM2D
大型语言模型中基于样本级遗忘难度的神经启发式解理解
A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty
作者: Xiaohua Feng, Yuyuan Li, Chengye Wang, Junlin Liu, Li Zhang, Chaochao Chen
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06658v1

摘要

arXiv:2504.06658v1 交叉公告类型 摘要:受隐私保护法律和规定的影响,大型语言模型(LLMs)的去学习正在获得越来越多的关注。然而,当前的研究通常忽视了去学习过程的可解释性,特别是样本级别去学习难度。现有研究通常假设样本级别的去学习难度是均匀的。这种简化可能导致将去学习算法的性能归因于样本选择而不是算法的设计,从而可能引导大型语言模型去学习的发展方向出现偏差。因此,我们调查了大型语言模型去学习与样本特征之间的关系,重点是去学习难度。从神经科学中汲取灵感,我们提出了一种记忆移除难度($\mathrm{MRD}$)指标来量化样本级别的去学习难度。使用$\mathrm{MRD}$,我们分析了难以去学习与容易去学习样本的特征。此外,我们提出了一种基于$\mathrm{MRD}$的加权采样方法来优化现有的去学习算法,优先考虑容易遗忘的样本,从而提高去学习的效率和有效性。我们使用公开的基准和数据集验证了所提出的指标和方法,结果证实了其有效性。