LLM2D
Obliviate: 保护大型语言模型中知识产权的高效遗忘方法
Obliviate: Efficient Unmemorization for Protecting Intellectual Property in Large Language Models
作者: Mark Russinovich, Ahmed Salem
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.15010v1

摘要

arXiv:2502.15010v1 通知类型: 交叉 摘要:最近,AI公司与内容创作者之间的版权协议凸显出了对语言模型复制受版权保护的内容时需要精确控制的需求。虽然现有的方法依赖于通过遗忘完全删除概念或简单的输出过滤,我们提出了一种名为Obliviate的新型后训练技术,该技术能够选择性地防止复制特定文本,同时保留语义理解。 Obliviate通过选择记忆序列中的标记,并修改模型的概率分布,以防止精确复制同时保持上下文理解。我们在多个大型语言模型(LaMA-3.1 8B、LaMA-3.1指令8B、Qwen-2.5-7B、Yi-1.5 6B)上对Obliviate进行了评估,涵盖合成记忆任务和自然版权内容。我们的结果显示,Obliviate在保持模型性能基本不变的情况下(与基线在HellaSwag、MMLU、TruthfulQA和Winogrande等标准基准上的性能差异在1%以内),可实现数量级的减轻,例如在精确记忆方面减少了100倍。这使得Obliviate特别适用于实际部署场景,在这些场景中,公司需要高效地处理预训练模型中的版权问题,而不会削弱其一般能力。