摘要
arXiv:2502.06892v1 安全类型:交叉
摘要:预训练语言模型(PLMs)的广泛应用使其暴露在文本后门攻击之下,特别是那些在预训练阶段植入的攻击。这些攻击对高可靠性的应用程序构成了重大风险,因为它们可以偷偷影响多个下游任务。尽管认证针对这些威胁的鲁棒性至关重要,但现有防御措施难以应对文本数据的高维度和相互依赖性,以及无法访问原始受污染的预训练数据。为了解决这些挑战,我们介绍了**F**uzzed **R**andomized **S**moothing (**FRS**),这是一种新的方法,用于高效地认证语言模型在后门攻击下的鲁棒性。FRS将软件鲁棒性认证技术与双阶段模型参数平滑相结合,使用蒙特卡罗树搜索进行主动模糊测试,在Damerau-Levenshtein空间内识别易受攻击的文本段落。这使得可以针对特定文本进行高效随机化,而在进行模型平滑时无需访问受污染的训练数据。我们的理论分析表明,FRS在鲁棒性认证范围方面优于现有方法。广泛的数据集、模型配置和攻击策略实验验证了FRS在防御效率、准确性和鲁棒性方面具有优势。