LLM2D
精确知识编辑:增强大型语言模型的安全性能
Precision Knowledge Editing: Enhancing Safety in Large Language Models
作者: Xuying Li, Zhuo Li, Yuji Kosuga, Yasuhiro Yoshida, Victor Bian
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03772v1

摘要

大型语言模型 (LLMs) 已经展现出非凡的能力,但也带来了与生成有毒或有害内容相关的风险。这项工作介绍了精准知识编辑 (PKE),这是一种建立在现有知识编辑方法基础上的先进技术,可以更有效地识别和修改 LLM 中的有毒参数区域。通过利用神经元权重跟踪和激活路径追踪,与之前的去毒实例神经元修改 (DINM) 等方法相比,PKE 在有毒内容管理方面实现了更精细的粒度。我们的实验表明,PKE 显着降低了各种模型(包括 Llama2-7b 和 Llama-3-8b-instruct)的攻击成功率 (ASR),同时保持了模型的整体性能。此外,我们还在实验中比较了一些闭源模型(gpt-4-0613 和 Claude 3 Sonnet)的性能,发现使用我们的方法调整的模型在安全性方面远远超过了闭源模型。这项研究为使 LLM 更安全、更可靠地应用于现实世界应用做出了贡献。