摘要
arXiv:2405.02765v3 宣告类型: 交叉替换
摘要:知识编辑方法(KEs)可以更新语言模型从预训练中学到的过时或不准确的知识。然而,KEs 可能会被用于恶意应用,例如插入错误信息和有害内容。了解生成的输出是基于编辑后的知识还是预训练中的第一手知识,可以提高用户对生成模型的信任度,并提供更多的透明度。受此驱动,我们提出了一项新的任务:在语言模型中检测编辑后的知识。给定一个编辑后的模型和一个由提示从编辑后的模型检索出的事实,目标是将知识分类为未经编辑(基于预训练)或经过编辑(基于后续编辑)两类。我们使用四种 KEs、两个大规模语言模型(LLMs)和两个数据集实例化了此任务。另外,我们提出将隐藏状态表示和概率分布作为检测特征。我们的结果表明,使用这些特征作为简单 AdaBoost 分类器的输入,可以建立强大的基线。该分类器只需要少量数据,并且即使在跨域设置中也能保持其性能。最后,我们发现区分经过编辑的知识和未经编辑但相关的知识更加具有挑战性,这突显了进一步研究的必要性。我们的工作为解决恶意模型编辑奠定了基础,这与大规模语言模型的强大生成能力密切相关,是需要重点关注的关键挑战之一。