摘要
arXiv:2504.10185v1 宣告类型: 横跨领域
摘要: 大型语言模型遗忘已成为确保通过从预训练模型中移除不良数据-模型影响来保证安全性和受控模型行为的同时保留一般实用性的一个关键挑战。最近,大量的努力已被投入开发LLM遗忘基准测试,例如WMDP(大规模破坏性代理)和MUSE(机器遗忘六面评估),这些基准测试促进了标准化遗忘性能评估和方法比较。尽管它们很有用,但在这些基准测试中,我们首次发现了新型的coreset效应。具体来说,我们发现使用原始(全员)遗忘集进行的LLM遗忘可以通过一个显著更小的子集(充当“coreset”)有效地维持,例如遗忘集的5%,即使随机选择也是如此。这表明,在这些基准测试中,即使在极其低数据量的环境下,LLM遗忘也能够出奇地容易完成。我们证明,无论使用哪种LLM遗忘方法(例如NPO(负偏好优化)和RMU(表征误导遗忘),这些方法在这些基准测试中很流行),这种coreset效应仍然很强。这一令人惊讶的coreset效应在各种数据选择方法(从随机选择到更复杂的启发式方法)下也具有鲁棒性。我们从关键词的角度解释了在LLM遗忘中发生的coreset效应,表明从遗忘集中提取的关键词本身对遗忘效果有显著贡献,表明当前的遗忘主要由一组高影响的令牌驱动,而不是整个数据集。我们进一步从其他维度,例如模式连通性和抵御牢笼攻击的鲁棒性,验证了coreset遗忘模型的忠实度。相关代码可在 https://github.com/OPTML-Group/MU-Coreset 获取。