LLM2D

摘要

arXiv:2502.15082v1 交叉公告类型摘要：用户规范或法律框架通常要求将信息从预训练模型中删除，包括大型语言模型（LLMs）。这需要从已经训练好的模型中删除或“忘记”一组数据点，通常会导致模型在其他数据点上的性能下降。因此，在移除信息与保持模型其他功能之间必须达到平衡，无法平衡这种权衡会导致删除效果不佳或无法使用的模型。为了解决这一问题，我们提出了UPCORE（保持功能的数据核心选择方法），这是一种通用的数据选择框架，用于减轻遗忘过程中的附带损害。我们发现模型损害与模型在忘记集合上的表示差异相关，因此选择性地修剪忘记集合以移除离群值，从而在删除后最小化模型的性能下降。我们在三种标准遗忘方法上评估UPCORE，始终在删除效果和模型保存之间取得更好的平衡。为了更好地评估这种权衡，我们引入了一个新的度量标准，测量标准度量的面积下曲线（AUC）。我们发现UPCORE在标准度量和AUC上都取得了改进，受益于核心选择和修剪点之间的正面迁移，同时减少了忘记集合对外部点的负面影响。