摘要
arXiv:2407.08770v2 宣告类型: 替换
摘要: 大型语言模型(LLMs)展示了作为通用助手的巨大潜力,展示了强大的任务理解和问题解决能力。为了将LLMs部署为AI助手,这些模型需要表现出诸如无毒性和对破解尝试的抗性等理想的行为特征。目前用于去毒或防止破解的方法通常涉及有监督的微调(SFT)或基于人类反馈的强化学习(RLHF),这需要通过梯度下降对数十亿参数进行微调,带来巨大的计算成本。此外,通过SFT和RLHF修改的模型可能会偏离预训练模型,可能导致基础LLM能力的退化。在本文中,我们观察到,令人惊讶的是,直接编辑一小部分参数可以有效地调节LLMs的特定行为,如去毒和抗破解,只需要推理级别的计算资源。实验表明,在去毒任务中,我们的方法在RealToxicityPrompts数据集上实现了90.0%的毒性降低,在ToxiGen上实现了49.2%的降低,同时保持了LLM在常识、问答和数学等领域的通用能力。