LLM2D

摘要

近年来，知识编辑作为一种更新大型语言模型 (LLM) 知识的有效技术，吸引了越来越多的关注。然而，缺乏有效的措施来防止恶意利用这项技术，这可能导致 LLM 中出现有害的编辑。这些恶意修改可能导致 LLM 生成有毒内容，误导用户采取不当行动。针对这一风险，我们提出了一项新的任务，即知识编辑类型识别 (KETI)，旨在识别 LLM 中不同类型的编辑，从而在遇到非法编辑时及时向用户发出警报。作为这项任务的一部分，我们提出了 KETIBench，其中包括五种涵盖大多数流行的有毒类型的有害编辑，以及一种良性的事实性编辑。我们开发了四个经典的分类模型和三个基于 BERT 的模型作为开源和闭源 LLM 的基线识别器。我们的实验结果，涵盖了涉及两个模型和三种知识编辑方法的 42 次试验，表明所有七个基线识别器都实现了良好的识别性能，突出了识别 LLM 中恶意编辑的可行性。额外的分析表明，识别器的性能独立于知识编辑方法的可靠性，并表现出跨域泛化能力，能够识别来自未知来源的编辑。所有数据和代码都可以在 https://github.com/xpq-tech/KETI 中获得。警告：本文包含有毒文本示例。