摘要
arXiv:2412.19037v2 宣告类型: 替换-交叉
摘要:后门攻击通过触发大型语言模型输出特定和受控的内容,显著削弱了它们的安全性。目前,文本后门攻击的触发器分为两类:固定词汇触发器和句子模式触发器。然而,前者通常容易被识别和过滤,而后者,如句法和风格,不一定适用于所有原始样本,并可能导致语义偏移。在本文中,受现实场景中LLM的跨语言(CL)提示的启发,我们提出了一种在段落级别使用的更高维度触发方法,即CL-攻击。CL-攻击通过使用包含多种语言的特定结构文本来植入后门,从而与现有后门攻击技术相比具有更高的隐蔽性和适用性。在不同任务和模型架构上的广泛实验表明,CL-攻击在分类和生成任务中可以实现近100%的攻击成功率,同时污染率相对较低。我们也实验证明,与基线后门攻击相比,CL-攻击对当前主要防御方法的抵抗力更强。此外,为了缓解CL-攻击,我们进一步开发了一种新的防御方法,即TranslateDefense,它可以部分缓解CL-攻击的影响。