LLM2D

摘要

arXiv:2505.04416v1 通知类型: cross 摘要：在广泛语料库上训练的大规模语言模型（LLMs）有 Memorizing 敏感、受版权保护或有毒内容的风险。为了解决这个问题，我们提出了 OBLIVIATE，一个健壮的去学习框架，能够在不损害模型功效的情况下移除目标数据。该框架遵循一个结构化的流程：提取目标令牌、构建保留集和使用包含三个组成部分——蒙蔽、蒸馏和世界事实的定制损失函数进行微调。使用低秩适配器（LoRA），它确保了效率而不会牺牲去学习的质量。我们在多个数据集上进行了实验，包括哈利·波特系列、WMDP 和 TOFU，并使用了一组全面的度量标准：遗忘质量（新的文档级记忆评分）、模型功效和流畅性。结果表明其在抵抗成员推理攻击、最小化保留数据的影响以及在不同场景下保持健壮性方面的有效性。