摘要
arXiv:2406.12257v3 宣布类型: 替换
摘要: 大型语言模型(LLMs)在生成任务中的出色表现使从业者能够利用公开可用的模型来支持自定义应用,例如聊天机器人和虚拟助手。然而,用于训练或微调这些LLMs的数据通常未被披露,这使得攻击者能够获取这些数据并在模型中植入后门。在本文中,我们开发了一种新颖的推理时防御方法,称为CLEANGEN,以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量级且有效的解码策略,与最先进的(SOTA)LLMs兼容。CLEANGEN背后的洞察是,与其他LLMs相比,被植入后门的LLMs会显著提高表示攻击者所期望内容的标记的概率。这些标记概率之间的差异使CLEANGEN能够识别出受攻击者青睐的可疑标记,并用另一个未被同一攻击者操控的LLM生成的标记替换它们,从而避免生成攻击者所期望的内容。我们将CLEANGEN与五个SOTA后门攻击进行了评估。我们的结果显示,在所有五个后门攻击中,CLEANGEN相比于五个SOTA基线防御方法,其攻击成功率(ASR)较低。此外,当使用CLEANGEN的LLMs以最小的附加计算开销服务于良性用户查询时,仍然保持了其响应的可用性。