摘要
arXiv:2502.07218v1 宣告类型: cross
摘要:大型语言模型(LLMs)因其训练数据量越来越大而受益,但因此也增加了泄露私人信息的风险。因此,从LLMs中选择性地移除知识的能力变得非常重要。在本文中,我们提出了LUNAR,一种基于线性表示假设的新颖遗忘方法。LUNAR通过将未学习数据的表示重定向到触发模型固有能力表达其无法回答的问题的区域来工作。LUNAR在PISTOL数据集上实现了最先进的遗忘性能,并显著增强了推理过程中未学习模型的可控性。具体而言,在各种基础模型上,LUNAR在“遗忘有效性”和“模型实用性”得分(“偏差分数”)的综合评估上实现了2.9到11.7倍的改进。我们还通过定量分析和定性示例展示了LUNAR在生成连贯且上下文相关的响应方面具有优越的可控性,能减轻现有方法的不良副作用。此外,我们展示了LUNAR在对抗白盒攻击时的鲁棒性,并且适用于处理实际场景,如处理序列遗忘请求。