摘要
知识编辑已成为更新大型语言模型 (LLM) 知识的有效方法,近年来在研究中引起了越来越多的关注。然而,缺乏有效的措施来防止这种技术的恶意滥用,这可能导致 LLM 中出现有害的编辑。这些恶意的修改有可能导致 LLM 生成有毒内容,误导用户采取不当行动。为了解决这个问题,我们引入了一项新任务,即 **知识编辑类型识别 (KETI)**,旨在识别 LLM 中的恶意编辑。作为这项任务的一部分,我们提出了 KETIBench,这是一个基准,包含五种类型的恶意更新和一种类型的良性更新。此外,我们开发了四种经典分类模型和三种基于 BERT 的模型,作为开源和闭源 LLM 的基线识别器。我们的实验结果涵盖了涉及两个模型和三种知识编辑方法的 42 次试验,表明所有七个基线识别器都实现了相当不错的识别性能,突出了识别 LLM 中恶意编辑的可行性。进一步的分析表明,识别器的性能与知识编辑方法的有效性无关,并表现出跨域泛化,能够识别来自未知来源的编辑。所有数据和代码均可在 https://github.com/xpq-tech/KETI 获得。警告:本文包含有毒文本示例。