摘要
arXiv:2502.11190v1 Announce Type: cross
摘要:当前针对大型语言模型的去学习方法通常依赖于反向优化来减少目标标记的概率。然而,这种范式破坏了后续标记的预测,降低了模型性能和语义连贯性。此外,现有的评价指标过分强调上下文遗忘,而对生成的流畅性和相关性评估不足。为了解决这些挑战,我们提出了ReLearn,一种有效去学习的数据增强和微调管道,以及一个全面的评价框架。这个框架引入了知识遗忘率(KFR)和知识保留率(KRR)来衡量知识级别的保存,并引入了语言分数(LS)来评估生成质量。我们的实验表明,ReLearn成功实现了目标遗忘,同时保持高质量的输出。通过机制分析,我们进一步证明了反向优化如何破坏连贯文本生成,而ReLearn则保留了这一关键能力。代码可以在https://github.com/zjunlp/unlearn获取。