摘要
arXiv:2502.15082v1 交叉公告类型
摘要:用户规范或法律框架通常要求将信息从预训练模型中删除,包括大型语言模型(LLMs)。这需要从已经训练好的模型中删除或“忘记”一组数据点,通常会导致模型在其他数据点上的性能下降。因此,在移除信息与保持模型其他功能之间必须达到平衡,无法平衡这种权衡会导致删除效果不佳或无法使用的模型。为了解决这一问题,我们提出了UPCORE(保持功能的数据核心选择方法),这是一种通用的数据选择框架,用于减轻遗忘过程中的附带损害。我们发现模型损害与模型在忘记集合上的表示差异相关,因此选择性地修剪忘记集合以移除离群值,从而在删除后最小化模型的性能下降。我们在三种标准遗忘方法上评估UPCORE,始终在删除效果和模型保存之间取得更好的平衡。为了更好地评估这种权衡,我们引入了一个新的度量标准,测量标准度量的面积下曲线(AUC)。我们发现UPCORE在标准度量和AUC上都取得了改进,受益于核心选择和修剪点之间的正面迁移,同时减少了忘记集合对外部点的负面影响。