LLM2D

摘要

知识编辑已成为更新大型语言模型 (LLM) 知识的有效方法，近年来在研究中引起了越来越多的关注。然而，缺乏有效的措施来防止这种技术的恶意滥用，这可能导致 LLM 中出现有害的编辑。这些恶意的修改有可能导致 LLM 生成有毒内容，误导用户采取不当行动。为了解决这个问题，我们引入了一项新任务，即 **知识编辑类型识别 (KETI)**，旨在识别 LLM 中的恶意编辑。作为这项任务的一部分，我们提出了 KETIBench，这是一个基准，包含五种类型的恶意更新和一种类型的良性更新。此外，我们开发了四种经典分类模型和三种基于 BERT 的模型，作为开源和闭源 LLM 的基线识别器。我们的实验结果涵盖了涉及两个模型和三种知识编辑方法的 42 次试验，表明所有七个基线识别器都实现了相当不错的识别性能，突出了识别 LLM 中恶意编辑的可行性。进一步的分析表明，识别器的性能与知识编辑方法的有效性无关，并表现出跨域泛化，能够识别来自未知来源的编辑。所有数据和代码均可在 https://github.com/xpq-tech/KETI 获得。警告：本文包含有毒文本示例。