摘要
近年来,知识编辑作为一种更新大型语言模型 (LLM) 知识的有效技术,吸引了越来越多的关注。然而,缺乏有效的措施来防止恶意利用这项技术,这可能导致 LLM 中出现有害的编辑。这些恶意修改可能导致 LLM 生成有毒内容,误导用户采取不当行动。针对这一风险,我们提出了一项新的任务,即知识编辑类型识别 (KETI),旨在识别 LLM 中不同类型的编辑,从而在遇到非法编辑时及时向用户发出警报。作为这项任务的一部分,我们提出了 KETIBench,其中包括五种涵盖大多数流行的有毒类型的有害编辑,以及一种良性的事实性编辑。我们开发了四个经典的分类模型和三个基于 BERT 的模型作为开源和闭源 LLM 的基线识别器。我们的实验结果,涵盖了涉及两个模型和三种知识编辑方法的 42 次试验,表明所有七个基线识别器都实现了良好的识别性能,突出了识别 LLM 中恶意编辑的可行性。额外的分析表明,识别器的性能独立于知识编辑方法的可靠性,并表现出跨域泛化能力,能够识别来自未知来源的编辑。所有数据和代码都可以在 https://github.com/xpq-tech/KETI 中获得。警告:本文包含有毒文本示例。