摘要
arXiv:2504.13774v1 宣告类型: cross
摘要: 大型语言模型(LLMs)最近彻底改变了语言处理任务,但同时也带来了伦理和法律问题。LLMs 有倾向于记忆训练数据中可能涉及隐私或版权的信息的趋势,这些信息最终可能在推理时传递给终端用户。当这种情况发生时,一个简单的解决方案是从排除不希望的数据开始重新训练整个模型。虽然这可以确保目标数据已被遗忘,但对于LLMs来说,这也是非常昂贵的。近似遗忘提供了一个更高效的替代方案,因为它涉及对训练后的模型本身进行事后修改,以防止不受欢迎的结果,但缺乏遗忘的保证,因为它仅依赖于经验证据。在这项工作中,我们提出了DP2Unlearning,这是一种新颖的LLM遗忘框架,它提供了比从头到尾在保留数据上重新训练LLM更低成本的正式遗忘保证。DP2Unlearning 包括使用ε-差分隐私(DP)对文本数据进行训练,之后可以利用与所选ε相关的披露保证实现高效的遗忘。我们的实验表明,DP2Unlearning 在遗忘后的模型性能与从头到尾在保留数据上重新训练LLM(即黄金标准精确遗忘)相当,但在遗忘成本大约减半的情况下实现了这一点。此外,在合理的计算成本下,它在保持模型遗忘后的效用和有效遗忘目标信息方面优于近似遗忘方法。