摘要
arXiv:2505.04416v1 通知类型: cross
摘要:在广泛语料库上训练的大规模语言模型(LLMs)有 Memorizing 敏感、受版权保护或有毒内容的风险。为了解决这个问题,我们提出了 OBLIVIATE,一个健壮的去学习框架,能够在不损害模型功效的情况下移除目标数据。该框架遵循一个结构化的流程:提取目标令牌、构建保留集和使用包含三个组成部分——蒙蔽、蒸馏和世界事实的定制损失函数进行微调。使用低秩适配器(LoRA),它确保了效率而不会牺牲去学习的质量。我们在多个数据集上进行了实验,包括哈利·波特系列、WMDP 和 TOFU,并使用了一组全面的度量标准:遗忘质量(新的文档级记忆评分)、模型功效和流畅性。结果表明其在抵抗成员推理攻击、最小化保留数据的影响以及在不同场景下保持健壮性方面的有效性。