LLM2D

摘要

arXiv:2412.19037v2 宣告类型: 替换-交叉摘要：后门攻击通过触发大型语言模型输出特定和受控的内容，显著削弱了它们的安全性。目前，文本后门攻击的触发器分为两类：固定词汇触发器和句子模式触发器。然而，前者通常容易被识别和过滤，而后者，如句法和风格，不一定适用于所有原始样本，并可能导致语义偏移。在本文中，受现实场景中LLM的跨语言（CL）提示的启发，我们提出了一种在段落级别使用的更高维度触发方法，即CL-攻击。CL-攻击通过使用包含多种语言的特定结构文本来植入后门，从而与现有后门攻击技术相比具有更高的隐蔽性和适用性。在不同任务和模型架构上的广泛实验表明，CL-攻击在分类和生成任务中可以实现近100%的攻击成功率，同时污染率相对较低。我们也实验证明，与基线后门攻击相比，CL-攻击对当前主要防御方法的抵抗力更强。此外，为了缓解CL-攻击，我们进一步开发了一种新的防御方法，即TranslateDefense，它可以部分缓解CL-攻击的影响。