LLM2D

摘要

大型语言模型 (LLMs) 已经展现出非凡的能力，但也带来了与生成有毒或有害内容相关的风险。这项工作介绍了精准知识编辑 (PKE)，这是一种建立在现有知识编辑方法基础上的先进技术，可以更有效地识别和修改 LLM 中的有毒参数区域。通过利用神经元权重跟踪和激活路径追踪，与之前的去毒实例神经元修改 (DINM) 等方法相比，PKE 在有毒内容管理方面实现了更精细的粒度。我们的实验表明，PKE 显着降低了各种模型（包括 Llama2-7b 和 Llama-3-8b-instruct）的攻击成功率 (ASR)，同时保持了模型的整体性能。此外，我们还在实验中比较了一些闭源模型（gpt-4-0613 和 Claude 3 Sonnet）的性能，发现使用我们的方法调整的模型在安全性方面远远超过了闭源模型。这项研究为使 LLM 更安全、更可靠地应用于现实世界应用做出了贡献。